尊重有信仰的人,无论你是否认同他的信仰

  年轻的时候看信仰,从理性的角度去质疑。记得《银河英雄传说》里杨元帅还是孩子的时候就说过:“穷人会相信神的公正,这在逻辑上是非常矛盾的。如果真有神,正因为神的不公正,才有穷人。幻想出神这种东西的人,是历史上最大的骗子。他值得钦佩的地方唯有其想像力和商业才干。从古到今,不论哪个国家,有钱人不都是贵族、地主和寺院的僧侣吗?”

  华人是认真过世俗生活的民族。孔子教导我们“敬鬼神而远之”。历史上,那么多儒家信徒直言不讳的攻击试图炼丹求道的皇帝:别在衰老面前软弱,人终有一死,重要的是死前留下君子的痕迹。这挺让人钦佩的。

  后来读书,知道释迦摩尼本身的观点其实是无神的。后人为了方便给普通人传教,才逐渐构建出了神佛和转世的体系。释迦摩尼用很强的逻辑去辩证:世界也许只是一个虚拟现实游戏(元宇宙?),但就算如此,我们还是要好好打怪练级,做该做的事,只是别太执迷。

  你仔细去看老子和庄子的书,同样没提到太多神,只是对人和世界的关系做体验和思考。同样,后人为了方便传教,创造了道教的神话体系。

  强者的逻辑其实都差不多。不相信主宰的施舍,只相信自己的理智,而且经过思考,面对残酷的真相,依然有所行动,这就是强者逻辑。

  然而,就算没有神,但凡思考变成了意识形态,还是会变得僵化。年轻时自以为读了些书,看到历史上那么多人只为意识形态就彼此仇恨和厮杀,而且一代代重复,觉得统治阶级太狡猾,构建谎言洗脑,让没见识的笨人减少思考,供他们奴役。当然,这些看法也没错。

  现在年纪大了,看法有点变化:其实大多数人没那么笨。并不缺少理性和逻辑。信仰不只是欺骗和愚昧。

  弱者皈依是为了求内心平静,至少宗教倡导与人为善,有信仰者常比黑化者更好相处。更有趣的是,很多强者也都有真诚的信仰,很多难事恰恰是信仰者做成的。

  比如中国多数超级三甲医院最初都是传教士建立的,甚至是连续几代人不懈努力的成果。医疗这件事,如果没有初心只看利害,很难长久。人类的进步源于行动的勇气,虽然缘起的信念本身往往漏洞百出。哥伦布到死都以为他去了印度,但没关系,他相信地球是圆的,他发现了新大陆。

  更直接的例子是1949年建国,如此贫弱松散,死了那么多人,仅靠共产主义信念的组织,就真的内统亿民、外御强敌。像李敖说的:“不管其他问题,共产党在富国强兵这件事上是有历史地位的。”僵化也好愚弄也罢,意识形态确实可以构造“想象的共同体”,最终汇集力量推动历史的改变。

  所以要尊重真正有信仰的人,无论你是否认同他的信仰内容。他可能并不笨,他可能很清楚意识形态的纰漏,只是他做了选择,选择了响应和行动,选择了最有可能改变世界的路。

  不说那么大,我也算连续创业,见过的成大事的创业者,都能保持初心,不耍小聪明,不黑化。眼光长远,才会有格局和自省,才能汇聚力量。

关于创业的碎碎念

  我很认同这篇《被妖魔化的私有云》。工程效率的关键是产品化,标准化,实现Build once, run everywhere at any scale. 所谓SaaS只是形式之一。采用何种形式应该以成就客户为标准。今天投资人对SaaS的追捧过头了。投资人琢磨追捧的那些toB的SaaS方法论,也都不重要。他们是被上一代创业者的成功标签训练的赌徒而已,很多时候他们只是在努力下注和弃牌,根本不知道自己到底买了什么。其实,这一代toB创业,最终目标选toB的Amazon还是toB的Apple,这才是个好问题。

  新一代数据库都在做:存算分离、Meta统一、引擎多模。然后,做OLTP引擎的都梦想把OLAP吃掉,又吃不掉,因为OLAP内部就散成好多块。再加上时序数据和图数据这种非常规引擎……现在想想,ODPS在9年前就搞Meta统一、引擎多模,老爷子的确领先于时代。

  Neo4j刚获得了3.25 亿美元的风险投资。这是史上对数据库类的创业公司的单笔最大风投。闭着眼也知道,接下来中国的VC又会跟风,开始到处给Graph(图数据库)创业团队投资。

  参与创业这么多年、这么多次,除了各种具体经验,最重要的是情绪方面的成长。学会了跳出外界观察自身。愤怒、恐惧、妄念时,依旧有自信和自控。团队角度,创业高压下时不时有人会小小失控。S级团队,并不需要各自谨小慎微,而是有人低潮时,其他人定会在专业上补位,甚至还能在认知上扮演performance coach。

  哪有什么“公域流量”,只不过看是平台巨头的“私域”或品牌自己的“私域”。是谁的客户渠道,谁就收过路费。

  2013年MIUI的人去参加锤子发布会。发布会没完就放心了。各种问题简直灾难现场。其实Demo Day诀窍就是一遍一遍过,乔布斯会反复演练200遍以上。听说锤子Demo Day,人上场了,下面还在大量改keynote,就知道老罗搞研发类创业不行。

  行业第一名的战略都是总成本领先,也就是占据最大的市场份额,摊薄一次性投入;而所谓差异化战略,永远是为第二名准备的。

关于开源的2条

  今年Linux内核维护者Qu Wenruo在内核维护邮件列表指出来自华为的开发者Leizhen等人提交的补丁有刷KPI嫌疑。热度迅速超过之前Linus关于疫苗的那一封。我看了一下,完善异常和日志格式,包括一些拼写错误。不像刷KPI,更像代码强迫症发作。不过最近中国企业有很多刷榜行为特别让人烦。比如大厂投资人突然把Github上的star当作一个指标,然后就各种造假。ym大虾回复我的朋友圈的时候,就这件事说:“应该不看动机看价值,该拒就拒,该收就收”。说得太对了。

  LoongArch对GNU Binutils的支持被合并了,共12个补丁。不过赶不上GCC 12了。Linux生态完整支持LoongArch要到2023年的GCC 13了。龙芯加油!顺便提一下,DataSimba已经支持龙芯CPU。刚做过正式测试,并拿到了信创认证。

关于“元宇宙”

  华盛顿邮报狠狠地批了“元宇宙”,说这是Facebook故意炒作概念,好转移公众对其侵犯隐私和撕裂民意相关指控的注意力。

  每次看到对“元宇宙”一本正经分析的文章,我就忍不住想:这些人10年前没看过《刀剑神域》,20年前没看过《黑客帝国》吗?

Ray Dalio采访

  下面这篇视频是Ray Dalio接受采访,和记者讨论欠两万亿债的恒大是不是中国的雷曼兄弟。他在一年内明显衰老。看起来儿子的去世对他打击很大。希望这位对中国相对友好的老人能挺住。Ray Dalio 说:“中国是一个战略游戏——你不可能突然进入或者退出。”

列书单2021.06.23

  列一下最近半年买的书。因为工作压力很大,书读的很慢。

  买了特里吉利斯的《崛起:炼金术战争》波拉尼奥的《帝国游戏》施密特的《成就》埃克苏佩里的《空军飞行员》卡尔维诺的《不存在的骑士》松浦弥太郎的《最糟也最棒的书店》余光中的《心有猛虎细嗅蔷薇》斯诺的《红星照耀中国》冯唐的《活着活着就老了》麦卡滕的《至暗时刻》李诞的《候场》安宅和人《麦肯锡教我的思考武器》石黑一雄的《克拉拉与太阳》

云原生数据中台的What、Why、Who、How和Where

WHAT:云原生是什么?它有啥前世今生?

简单说,云原生(Cloud Native)是在云上构建和运行系统的方法论。最早移植上云的“非原住民”应用程序,往往还沿用私有化部署的技术架构,无法充分发挥云基础设施的优势。随着客户应用的深入,系统必须按照IaaS和PaaS的原理进行重构,以便跟上业务的爆炸性增长。

按照CNCF(Cloud Native Computing Foudation)定义,云原生一般包含CI/CD(持续集成持续交付)、容器化、微服务、存储计算分离、跨云多域、元数据管理等技术要素。

图源:CNCF

老实讲,从我这种从业20年数据技术老兵看来,这又是一波buzzword,很多东西二十年前就有了,十几年前就已经成为互联网技术团队的标配。例如,2007年Google已向Linux内核社区贡献cgroup补丁;再如,2008年腾讯阿里招收计算机专业的应届生的面试题里就有CI/CD的问题;2013年我在阿里云ODPS团队时,ODPS的调度器和执行器已加上了cgroup能力。

WHY:投资人不傻,为什么这些概念在创投领域突然变火?

云原生暗合当前行业的发展逻辑,才会受“追捧”。我猜所有重要的创新都要被“发明”两次,一次是从无到有生出来,一次是出圈。

最近业界有个新闻,2020年,中国IT预算里超过50%的钱花在了云上。这是一个里程碑时刻,在中国这个喜欢私有化部署的市场里,云终于赢了。

大量的应用在云上,就遇到成本和效率的问题。举2个例子:

第1个例子,云和大数据运维技术含量较高,很多看机房重启机器的传统运维工程师无力承担。但是线上数据、计算和应用规模还在以每年N倍的速度增长。如果不采用CI/CD而是坚持传统的人肉运维,先别说这种运维工程师的薪酬很高,你可能都招不到这么多合适的人。

第2个例子,客户如果把Hadoop不加修改直接部署到ECS节点上,数据通过HDFS存在云磁盘上成本会非常昂贵。客户必须修改HDFS底层,把数据存到对象存储上去。

成本和效率问题推动智能数据平台必须走向云原生,从而为用户带来如下收益:

1. 提高研发效率通过微服务、CI/CD、对象体系、DevOps等一系列技术,提高代码开发、测试、发布效率,降低迭代成本。

2. 降低运维成本同样,上面这些技术也可以实现开发及运维高效协同,有效提升对故障的响应速度,实现持续集成和交付,使得快速部署应用成为业务流程和企业竞争力的重要组成部分。

3. 降低存算成本大数据基础设施的存储计算成本惊人。存算分离和容器化能够更高效地使用IaaS资源,降低存储成本。存储和计算节点分离后,可以在不对存储进行扩容的情况下快速增加计算资源。另一方面,单个容器的启动时间更快,占用空间更小,而且可以根据实际应用的大小来弹性分配资源,无需额外采购服务器。

4. 提高治理效率数据治理是非常重要但“脏”且繁琐的工作。使用跨云治理、元数据管理等技术,会大幅度提高企业积累数据资产的效率,降低安全风险,提高供应商的多样化。

WHO:所有人都在阐释云原生,哪个更符合客户诉求?到底是“谁的云原生”?

讨论云原生时,应该问清楚:“谁的云原生?”AWS、阿里云、微软云、腾讯云、华为云、京东云、Google云……每一家都推出了自己云原生技术,以吸引客户搬上自己的云。但技术接口的中立性和跨平台性被有意无意忽略了。

奇点云作为“AI驱动的数据中台”创导者,是标准的乙方数据智能技术供应商,服务于泛零售、金融、电信等行业,其中不乏各行业的头部企业。所以我们有动力做下面两件事:

1. 尽可能优化架构,降低数据应用在IaaS上的计算、存储成本。

2. 实现跨云数据治理,帮助客户摆脱某个特定云平台的绑定。

总而言之,和客户站在一起。

你会发现,在美国,尽管AWS的产品非常强大,但是snowflake和databricks依旧服务了很多世界五百强企业。原因就是这些头部企业需要把自己的IaaS供应商多样化。逻辑很类似。

所以“奇点云的云原生”,相比常规定义,多强调了几个因素:对象体系、跨平台、自主可控。我们的产品支持AWS、阿里云、微软云、腾讯云、华为云、京东云、Google云,并实现跨云的多workspace管理,能实现客户数据与应用的跨云治理和迁移。而且系统基本的架构体系设计更开放、更安全、更容易集成。

HOW:对于云原生,数据领域有什么倾向?具体通过哪些技术要素实现云原生?

我们先回顾一下数据技术的演进阶段:

阶段 #1 关系性数据库出现,SQL统一数据开发工业标准,开始区分OLTP和OLAP。问题:随着业务成长,数据量爆炸,尤其是互联网影响的深入,传统关系型数据库逐渐扛不住海量数据的压力。

阶段 #2 大数据技术出现,支撑海量数据的处理,OLAP本身又被分成了离线和实时。问题:针对不同场景的各种大数据引擎不断出现,反过来又刺激了更多数据的生成。海量数据的成本开始变成沉重的负担,如果不能把数据变成“资产”,帮助业务赚钱或省钱,就没法持续支撑大数据基础设施的持续投入。

阶段 #3 数据中台出现,提出一系列的业务方法论,强调积累数据资产。问题:数据中台在互联网公司的实践获得了相当大的成功。但是在其他行业,如果纯粹100%生硬照搬互联网的业务架构和产品形态,会遇到很多水土不服。举个例子,传统行业的企业有大量的线下场景,需要考虑很多数据集成、跨平台治理、数据安全、自主可控的问题。

阶段 #4 数据智能深入场景,AI成为数据中台的入口和出口,业务和数据上云趋势加快,多域数据治理成为刚需,国内用户愿意为自主可控技术买单。 

你可以看到,每一阶段技术都是为了解决上一代问题诞生的。 所以,大数据领域的业务特点会推导对云原生的一些倾向性:

1. 数据中台存储海量数据,且作业高吞吐高并发,对存算分离的各项指标要求明显高于其他领域的应用;

2. 大数据集群规模大进程多,天然需要微服务治理和其他智能运维技术

3. 客户对数据安全、数据确权极其关注,加上toB的分级多域数据治理场景非常复杂,产生了对跨平台技术、数据安全技术、合规数据合作技术的强烈需求;

4. 由于目前的国际政经形势,自主可控的大数据引擎,对国内企业而言是一个刚需。 

想清楚了这些,“奇点云的云原生”具体做了如下的研发:

# 容器化编排:容器化本质上是一种虚拟化技术,一台主机可虚拟出上千个容器。单个容器的启动时间更快,占用空间更小,而且可以根据实际应用的大小来弹性分配资源,无需额外采购服务器,加快研发速度。

# 对象体系:根据现有业务抽象出核心对象,以标准RESTful风格提供API服务,解耦核心对象与业务层服务,以应对不同环境、不同业务场景的需求。这一系列正交的核心对象就构成了平台对象体系,上层业务可在此基础上构建应用,高效演进。

# CI/CD:通过版本管理系统和DevOps基础设施,实现自动化测试和持续集成。一个典型流程是,程序员提交代码到特定的tag,触发测试接口自动化测试脚本+开发单测脚本(偏提交代码新功能的)执行并发送报告。由此实现测试、发布和部署自动化。在此基础上构建特定的数据环境,对重要接口和链路进行自动化检测。

# 存算分离:如果把Hadoop、Spark等常规开源大数据引擎直接应用于云主机,海量数据带来的存储成本和吞吐压力,会很快“压垮”客户。因此,必须引入中间缓存实现计算存储分离,将数据存储到对象存储上,同时兼容HDFS协议,能够根据业务需求进行弹性扩容,就能大幅度降低成本,提高集群性能。

# 跨云治理:在AWS、阿里云、华为云、腾讯云、京东云等平台,实现统一账号、权限和审计的多workspace的兼容管理,并进一步提供数据安全和可信计算方案,从而提高基础设施的可控性和安全性。

# 元数据管理:对数据的结构、指标、标签、权限、上下游血缘、生产作业等元信息进行规范化管理,建立智能数据治理体系,支持数据盘点、安全审计、血缘分析、关键分级等应用,最终实现数据资产化。

WHERE:客户在哪些场景用上了云原生数据中台?

简单举几个客户应用我们的云原生数据中台DataSimba的例子吧(均为真实案例,保密原因,不能指明):

案例 #1 某互联网APP,在海内外都很受欢迎。由于地域和法规的要求,他们必须在多个国家的多种IaaS上实现数据生产和合规隔离,例如:在印度部署1个workspace在孟买AWS上,在美国部署1个workspace在Oracle云上,在中国部署1个workspace在阿里云上……同时又实现账号权限、数据审计和安全策略的全局管理。

案例 #2 某大型电子设备制造公司,由于战略和业务的原因,必须把自己IaaS供应商多样化:部署1个workspace在华为云上,以便对接政企系统;部署1个workspace在AWS上,以便满足海外客户的审计需求;再部署1个workspace在阿里云上,以便支持和阿里云的战略合作……同时又要进行全局的数据资产管理。

案例 #3 某大型零售品牌集团,本身就有多个互相竞争的子品牌,彼此要求数据做必要隔离和客户隐私保护,同时总部又要进行全面的数据拉通。另一方面,该品牌商会对接多个流量电商平台:在阿里云放一个workspace支持双11,在京东云放一个workspace支持618。再加上几十个线上线下系统的数据的集成和拉通,形成了很复杂的分级多workspace的云原生数据治理体系。

案例 #4 某流通业的大型集团,各个分公司比较独立,IT经费充足。这时候总部上一个分级数据治理的多workspace数据中台,旗下比较大的分公司有自己独立机房的可以单独部署workspace,而小一些的公司在阿里云或华为云上开通workspace。总部对所有workspace拥有账号管理和审计的权利,同时控制住数据建模规范标准和指标的版本发布。
不同行业的不同企业,搭建出不一样的云原生跨平台数据治理体系,这其中的业务逻辑复杂微妙。我们再对比一下互联网大厂的数据平台——大一统式的数据打通,跑在几千台节点集群上,就可以发现两边产品上的着眼点并不相同。

最后回顾前面讲的几个关键点:奇点云的第三方立场,奇点云团队对大数据、云计算、人工智能技术的沉淀,奇点云对泛零售、金融、电信等行业的深入理解,以及最重要的——上面这些真实客户案例,都让我们能自信地说,奇点云是中国企业数字化转型的“must-have”供应商。

图源:PIIE

顺便打个广告:技术团队正在火热招聘中,欢迎数据工程师、算法工程师、后端工程师、DevOps工程师们投递简历:zhaopin@startdt.com

本期作者 | 王乐珩(地雷)

奇点云数据智能平台DataSimba总负责人,阿里大数据底层核心引擎ODPS初代产品经理。曾支持蚂蚁金服、菜鸟等算法与应用建设。

(了解地雷,戳→《大咖来了:地雷赌了两件事》)

跳上火箭

  有人问我,怎么每次选点都能那么准。我觉得主要是命好,或者是自己有眼光能找得到命好的人去跟随,最后感谢党和政府。正经点说,“如果火箭上有个位置,你要做的是赶紧跳上去,而不是计较位置好坏。”这句话是对的。

  奇点云几个月内完成了B1和B2轮好几亿的融资,对比今年的经济大环境,你以为投资人傻吗?最近大量招聘,观察各种人不同的决策过程,选择加入或不加入,是一件很有趣的事。

  2020的奇点云这个公司是一个有点神奇的故事。很高兴我个人和这个故事有点关系。唯一点“遗憾”是:我本来真是下定决心共克时艰来的,居然没赶上!从我进来那个月开始,业务已经触底反弹,然后就一路在猛涨。

  加入奇点云这段时间是我职业生涯里最忙的一段时间。几乎每天都弄到晚上23点才回家。前两天想,像我这么懒散的人,居然把自己弄成了工作狂的人设,似乎哪里不对。

  以前在聚道创业时,清林教会我很多管理上的事。比如他建议我,无论多忙,每周安排半天时间,找茶馆咖啡开个包厢,静下来独处,读书,把真正重要的大事理一理。最近在反思,不该拿忙当借口,试图用行动上的勤勉掩盖思考上的懒惰。

  CEO也说我太紧张不够松弛。想了一下自己为啥不快乐。因为耗费大量精力在做哈代所谓的“二等脑子”才做的事。接下来要开始动手调整团队,招聘P7,培养年轻人,筛选考核中层,构建班委。总之,计划用半年时间,把事情交出去,把SOP定好,把自己空出来。

关于toB的中台产品

  产品,是有边界的可复用的解决方案。而服务,归根到底是个性化的。所以客户到底要什么很重要。很多时候,toB领域的客户需要的只是披着产品外衣的服务而已。这时候中台侧的产品经理应该意识到,自己产品其实是服务前台团队和渠道伙伴的布道原型、交付工具和运维底座。

  中台团队常犯的错误1:技术自嗨,没意识到自己的核心价值是帮前台打单和交付。没搞清楚中间件(middleware)和中台的差别。中台是一种业务方法论,中台系统是这种方法论的落地工具。

  中台团队常犯的错误2:为讨好前台团队,把自己弄成了资源池。只是出人出枪帮忙干活,却无力构建杀手应用,无力帮前台提高客单价,无力帮前台提高人效。

  此外,ThoughtWorks的CTO的直播“low code是行业毒瘤”,说到我心里去了。图灵完备的基本原理,七十年前就证明清楚了。一代代试图用拖拖拽拽代替代码IDE的人,到底是蠢还是坏。