Category Archives: 打工日记

2020杭州里程碑

  到杭州创业,就过上了没日没夜的战斗生活。这两天病了,有空上BLOG记录一下。

  5月,确定了产品的roadmap。

  发了下面这张照片,是范库弗峰造船厂在批量建造航空母舰。1942年,他们从罗斯福总统手里拿到建造50艘航母的订单。用了一年多就全部下水完成。美国鼎盛时期的工业制造和项目管理能力真是惊人。

  7月,第一个里程碑到达。这时候我在大量面试。开心,估计明年开始就有00后来面试找工作了。是00后会替我报仇。我终于可以和团队里的90后说,你们也老了。国内经济恢复的势头好猛。别人不说,我们这个小创业公司在疯狂加班,天天愁招人。

  8月6日,又一个里程碑到达。事情开始上轨道。日拱一卒,功不唐捐。给自己点个赞。

  读历史的时候发现,东晋时期天师教盛行。天师教的logo类似“之”字,因此大量教徒名字里加“之”,例如:王羲之、王献之、王凝之、陈庆之、陈牢之、顾恺之、祖冲之、裴松之等。

  下面这张照片,是那时候加完班半夜在公司院子里拍的。

  

  9月,连续2个里程碑。呼兰段子里说,产品经理和程序员的关系,就像唐僧和孙悟空。想想还真贴切。不过我这种写过十年C++,用来赚过钱的编程语言17种的唐僧,更让孙悟空恨的牙痒。27日里程碑发布那天,发了一条冯唐的诗:“尚未佩妥剑,转眼便江湖。愿历尽千帆,归来仍少年。”

  10月,开始疲惫,开始出状况,放松对团队的压力。保护节奏感。

  读历史,楚国这个国家很有个性,很好玩。比如这个:三十五年,楚伐随。随曰:“我无罪。”楚曰:“我蛮夷也。”楚国祖先血统高贵,是祝融后裔,是周文王的火师,也就是大祭司。只是被周王室黑了,发配到边疆,还被降级到周边蛮夷级别。所以他们总有怨气,说话很冲。史书上全是这种中二表达。包括最后的一句:“楚虽三户,亡秦必楚。”

地雷赌了两件事

“凤衔金榜出云来,平地一声雷。”

18年数据老将地雷(花名),2020年5月加入奇点云,任技术总监。

5月11日,他在博客里写道:这一次在赌两件事

“至暗时刻”

今年年初,那正是国内疫情最严重的时候,地雷做了一个大胆的决定:离开AI独角兽企业,去一家服务泛零售行业的创业公司。

彼时,许多线下零售企业无法开张,经营受到重挫,其数字化转型预算大幅削减,服务它们的创业公司必然受到影响。不少人劝他不要“想不开”。在众多劝他的人里,甚至包括认识多年的老友行在。

作为奇点云的创始人兼CEO,行在非常希望地雷加入,但作为朋友,他又忍不住多劝几句:“你现在有一笔股票,公司还即将上市,前途无量。而我们仍在战斗,现在还是‘至暗时刻’。”

“老张当时特别严肃。我和老张认识八年了,他一直是这样的人,非常坦诚。”地雷说,选择一家公司,要看这家公司做的“事”,更要看他们的“人”。

“其实创业这么多年,我也经历过至暗时刻,我知道扛过这段时期就能变得很好。结果我2月下定决心,5月入职,甚至都没赶上‘至暗时刻’。”2020年刚过半,奇点云实现了连续2个季度盈利,成为黑天鹅阴翳下的一道奇迹。

“水到渠成”

加入奇点云之前,地雷已和大数据、人工智能打了18年交道。

2003年至2011年,他在中科院计算所担任pFind蛋白组学搜索引擎架构师。

2012年,地雷加入阿里云,作为阿里大数据底层核心引擎ODPS的初代产品经理之一,负责ODPS的算法模块和对外开放。地雷和行在的“孽缘”正从那时开始——行在恰好是阿里数据中台的发起人之一。

注1:ODPS由阿里自主研发,是阿里数据交换平台(DXP)的底层基础设施,支撑着阿里金融、淘宝指数、数据魔方等关键业务。

注2:ODPS团队是当时阿里“平均级别最高、平均工资最高且没有之一”的团队,汇聚了阿里最高密度的精英人才。用地雷的话说,“十项全能的人”数不胜数。

打好技术基础后,次年,ODPS启动了与上层业务团队的合作,支撑阿里内部各项业务的开展。打个比方,地雷参与了ODPS支持蚂蚁金服金融风控领域的多种应用,其中包括现在人手一个、动态变化的芝麻信用评分;又如,强力加持菜鸟,搭建了菜鸟第一代物流预测算法

地雷,2013年,@阿里,杭州

从攻关底层核心引擎技术,到技术支撑内部业务,终于,2014年阿里云决定把整个ODPS对外开放,将大数据底层核心能力赋能给社会。这也是地雷在阿里云最为自豪的战果——开放前夕他在博客里写道:“从进阿里第一天起,我就只盯着ODPS对外开放这一件事,终于快等到了!”


 2014年底,完成ODPS与电商、游戏、医疗、智能穿戴等企业的对接和应用后,地雷离开阿里云,走上创业路,在聚道科技任GeneDock基因大数据平台CTO。医疗是一个专业的领域,需要沉下心深入积累。2018年,聚道科技完成B轮融资,创造了该领域融资额/团队规模的记录。次年,地雷加入云从科技,担任人机协同中台系统的产品总监。 2020年,疫情重击,很多行业都处于“至暗时刻”,地雷南下,加入奇点云。这一年,中国的大多数企业都已经站在了数智化转型的十字路口。无论是做什么的企业,现在都需要把数据当作核心问题去认真对待。“走量”已无法带来下一阶段的成功,必须借助数据去“精耕细作”。而数据中台正是企业进入DT时代、应对未知风险的重要基础设施。地雷认为,现在中台模式最早源于互联网公司。但是对于线下传统企业的场景,产品必须有所创新,“我们当年在阿里面临很多实际问题,原有的思路搞不定,不得不创新,后来有人给这套打法起了一个名字叫中台。今天线下商业面对的场景更复杂、数据更分散,一定需要更多创新,而不是生搬老套路。”因此,地雷非常认同AI这个方向:其一,AIoT是线下数据的重要入口与出口,不仅要为企业解决数据怎么用的问题,还要解决线下场景没有数据的问题;其二,要借助人工智能,让机器完成机器能做的事情,释放人去做更有创造力的事情。 “奇点云所创导的‘AI驱动的数据中台’,和我对数据中台的理想认知完全相符。”回顾走过的路,地雷说,“现在可以说是自然而然来到了最适合我的地方,水到渠成。”

地雷的生活日常

“长期主义”

此番地雷加入奇点云,担当数据中台产品(奇点DataSimba)的大任,他的思路很清晰——“长期主义”。数据中台这一行,无论是客户还是服务商,都应该意识到它是需要长期坚持的一件事儿。对于客户来说,“数据中台是进行时”,它不是部署一个产品就结束的,数智化转型的路很长,还有很多数据智能的机会值得去探索、深化和应用。对于服务商自己来说,选择了数据中台这条赛道,就意味着选择了一场“长线战役”。地雷认为做数据中台产品,首先,技术是平台侧的,对平台侧的投资都很难,要花时间去打磨,当然一旦做出来了,竞争对手也很难抄走;另一方面,做数据中台要舍得扎根行业,要耐得住性子去打透行业、沉淀行业know-how,才能保证在底下打“地基”的技术团队不会走错方向。在地雷看来,一个真正长远的数据中台公司一定会按照这个方式去布阵,而当他发现“奇点云作为一家创业公司,有行业专家团队,甚至还有专业的、收费的咨询团队”,“这样丰富层次的配置”让他一下子有了带技术研发团队的安心感和信心。“如果是为了去追数据中台的风口,不舍得坚持投入,绝对不会成功。”地雷谈到,“所以(做数据中台)很挑老板,老板是不是认同这是一个长线战役,并能持续投入——哪怕在低潮的时候,也要持续投入,克服最难点。之前在阿里合作直到现在,确认过眼神,行在是对的人。”


“正确的路”

如何赢得竞争?地雷认为做“龟兔赛跑”的乌龟就可以了。但他强调,除了勤奋,乌龟成功的一个关键前提是:乌龟一定要跑在正确的路上,没有瞎绕。地雷从3个维度规划“正确的路”:产品管理、工程管理和团队管理。

产品管理

数据中台研发和创造单个应用相比,难度要高一个数量级。架构上,必须设计一套干净强大、可拓展、安全、完整自洽的API,并在此基础上构建SDK、Console、GUI和编程工具链。即使是计算机系科班出身的程序员,90%也不清楚DSL编译器和IDE的实现原理。产品上,需要抽象和分解能力。不仅仅满足某个具体用户场景,而是必须把握各种应用开发者在各阶段遇到的各种问题。除了用户体验,还得注意统一的概念体系、设计哲学和必要的分寸感。因此,研发ToB平台型产品,必须规划好产品架构和路线图,不能无脑乱闯。产品经理该做的功课:战略分解、市场分析、客户访谈、竞品调研、用户体验走廊测试、“吃狗粮”……一项都别想偷懒。地雷说,他见过太多失败的团队,产品负责人放弃了谨慎的思考和周密的设计,就知道逼着团队拼命加班,然后指望靠蛮力一遍遍推倒重构。“这是用战术上的勤勉掩盖战略上的懒惰。”地雷举了华为的例子。华为之所以这么厉害,一个重要原因是华为特别重视产品规划,市场调研、需求分析很扎实,路标选点非常准。一旦有了路线图,华为往往会投入竞争对手三倍的研发力量,确保压倒性优势。(这也意味着,和对手同等资源下,另有2个“还不错”的方向被“战略性放弃”了,保证了“特别对的”战役有“范弗里特弹药量”)。经过产品经理团队周密而繁琐的工作,DataSimba的路线图目前已经规划到了27周以后,并在业务重点、关键概念和架构体系上,和销售团队、架构师达成了一致。

工程管理

好的软件工程实践,决定了技术团队的层次。需求的管理和分解是否专业、版本管理用得如何、Bug管理怎么样、代码审核是否严格、发布升级是否自动化、有没有单元和集成测试、迭代是否建立了节奏感……地雷说,到一个技术团队里呆几个小时,鼻子闻一闻,就知道几斤几两。技术团队如果这些基本功不好,摩擦力会越来越大。


“我用SAFe(Scaled Agile Framework,大型敏捷软件工程方法论)带项目,”地雷介绍,“它可能是唯一适合底层中台开发的管理方式。”
*注:SAFe,国际上最流行的规模化敏捷方法之一,将敏捷实践从团队级有效扩展至项目群级乃至企业级。底层核心平台(数据平台)的技术管理方法论不同于应用软件型产品:常规意义上的敏捷软件开发,团队不会超过20人,有时leader带着向前猛冲就能做出成果。而大型平台可能有上百人的技术团队,如何让上百人协同起来,同时保证整体迭代的节奏感,就需要专门的管理思路。微软的Windows团队、亚马逊的AWS团队、Apple的系统平台团队,都采用SAFe的方法论,阿里的ODPS团队亦是如此。18年走来,地雷对平台型团队的软件工程管理非常熟悉。这最早得益于在ODPS的战斗,在后期的创业实践中经历了多次检验,现在,他把这套方法论也带到了奇点云。

团队管理

来到奇点云,地雷定下了两个“小目标”:一,短期内,要把数据中台这个产品做得足够好;二,长期,打造一个精英研发团队,每一位成员都要有“端到端”的意识和能力(例如程序员,需要在“理解需求”和“测试”这两侧都很强)。地雷不认为团队管理有什么武功秘籍,反而常常都是一些繁琐的“体力活”,例如:每天早上站立晨会;每2个月做一次全团队One on One,给每个人辅导OKR(Objectives and Key Results,目标与关键成果);每个项目都做复盘;每次事故都做Post-Mortem(故障回顾);每个版本结束,都举行发布会、“吃狗粮”和黑客马拉松;建立起技术面试的规范和流程;建立新人入职手册和导师制度;把不合格的家伙干脆利索开掉……总之,让跟着你的人觉得有成长,不敢懈怠。建立团队信任,让团队里的聪明人超越“办公室政治”,互相合作取得双赢。这一点上,地雷很认同CEO行在挂在嘴边的那一句:“管理者需要脑力、体力和心力”。把团队当作产品去打造,看到团队成员们发展成为很精英、很职业的工程师或产品经理,是地雷做管理者的幸福感来源。

地雷(右一)和团队同学

6月,杭州入梅,南方的雨淅淅沥沥,落在梦想小镇创业大街23幢仿古的屋檐上。回想起冬去春来的那段时光,北京还没停止供应暖气,许多人问地雷:为什么要在疫情最严重的时候离开AI独角兽,去一个服务泛零售行业的小型创业公司?地雷终于在他的博客写下了回答:“这一次在赌两件事:第一、中国零售行业会很快恢复;第二、奇点云能够快速达到盈亏平衡、下一轮融资成功、杀出红海。我们来一起看看,接下来会发生什么事。”很高兴,这两件事我们一起赌对了。

地 雷 团 队招 兵 买 马

或许你对低调的地雷和他麾下团队产生了亿点点兴趣;或许你就是兼顾“理解需求”和“测试”两侧、“端到端”做事的王牌程序员;或许你已经参透PD不能只坐镇后方的道理,领头冲锋,为身后的兄弟们探路搭桥;或许你还未C位出道,但吃得苦中苦,学海无涯乐作舟;……那或许,你挺适合奇点云技术团队。


产品经理、后端工程师、架构师、测试经理等岗位火热招聘中,立即投递简历至邮箱:hr@startdt.com或点击阅读原文,直达招聘主页。各位“工兵”,速来“扫雷”!

总算到家了

  昨天飞机晚点,落地回到家已经半夜了。刚刚我还在被窝里,闺女已经过来站在床边大声背起诗来了:“……万里赴戎机,关山度若飞。朔气传金柝,寒光照铁衣。将军百战死,壮士十年归……”

  有段时间没和销售一起打仗了。我发现自己还是那么嗜血好战,听到POC拼刺刀就兴奋。来来来,把竞争对手打得满地找牙!

  自从公司培训了财务三张表,就热衷于关注各大巨头的负债率。目前亚马逊是72%,京东是64%,腾讯是48%,阿里是36%。

云从科技AI平台中心招聘(北京、苏州)

高级Java工程师

工作职责
    1. 从0到1全程参与数据治理产品研发落地;
    2. 负责数据的采集、清洗、预处理、存储、分析挖掘和数据可视化以及架构设计、开发、部署、自动化运维等工作的具体实施;
    3. 设计应用系统架构,出具应用实施解决方案,包括:系统架构设计、接口规范制定、技术文档编写、可用性与稳定性等。

任职要求
    1. 大学本科学历,3年以上Java研发经验,精通JAVA,熟悉Python、Linux Shell;
    2. 熟练使用SpringMVC/SpringBoot/SpringCloud、Mybatis框架;
    3. 熟练使用Mysql/Oracle数据库,了解数据库优化、SQL优化、查询性能等优化;精通数据库架构Sharding、高可用性、主从复制等技术,有相关的性能优化经验;
    4. 熟练使用Elasticsearch、MongoDB、Redis等nosql数据库;
    5. 具备2年Java开发经验+1年系统架构设计经验;
    6. 具备大规模系统设计经验、分布式存储/计算经验、高负载/高并发/高可用架构和调优经验经验;
    7. 熟悉分布式存储、搜索、异步框架、集群与负载均衡,消息中间件等技术;
    8. 有优秀的解决问题能力,有很强的责任心,有良好的沟通能力。

加分项
    1. 有数据仓库开发经验;
    2. 具备金融系统研发、架构经验;
    3. 有持续集成和结对编程等工程实践经验。

高级大数据工程师

工作职责
    1. 从0到1,全程参与数据治理产品研发落地;
    2. 负责数据的采集、清洗、预处理、存储、分析挖掘和数据可视化以及架构设计、开发、部署、自动化运维等工作的具体实施;
    3. 设计应用系统的规划及架构,出具应用实施解决方案,包括:系统架构设计、接口规范制定、技术文档编写、可用性与稳定性等。

任职要求
   1. 大学本科学历,2年以上Java研发经验,精通JAVA,熟悉Python、Linux Shell;3年Hadoop/Spark应用研发实战经验;
    2. 具备架构师意识和大规模分布式系统设计经验、高负载/高并发/高可用架构经验;
    4. 熟练使用Hive、Spark等大数据技术,并有相关的性能优化经验;
    5. 熟练使用Elasticsearch、MongoDB、HBase等nosql数据库;
    6. 熟练使用Kafka等分布式消息框架;
    7. 熟练使用DataX、Canal等工具;
    8. 具备大数据平台运维能力、问题排查解决能力、平台优化能力;
    9. 有优秀的解决问题能力,有很强的责任心,有良好的沟通能力。

加分项
    1. 有大型数据仓库开发经验;
    2. 有持续集成和结对编程等工程实践经验;
    3. 具备大数据金融系统或是反欺诈系统研发经验。

前端工程师

工作职责
     1. 负责数据治理产品的设计与实施;
     2. Web前沿技术的研究和新技术的调研。
任职要求
     1. 熟悉各种Web前端技术(HTML/CSS/Javascript等),熟练掌握跨浏览器、跨终端的开发;
     2. 熟悉W3C标准,对可用性、可访问性、http协议相关知识,有深入的了解和实践经验;
     3. 精通至少一个MVVM框架(React、Angualr、Vue)等,理解组件化开发和框架底层机制;
     4. 熟悉webpack,gulp 等自动化构建工具,拥有丰富的实际配置经验;
     5. 熟练使用SVN,git版本管理工具,能根据实际需求进行代码仓库的维护管理;
     6. 有优秀的解决问题能力,有很强的责任心,有良好的沟通能力。
加分项
     1. 了解任何一种后台语言;
     2. 有持续集成和结对编程等工程实践经验;
     3. 熟悉自动化测试工具(如Selenium)。

资深测试工程师

工作职责
    1. 负责数据治理产品的测试相关工作,保障项目交付质量;
    2. 制定测试计划,编写用例,监控项目实施,撰写测试报告;
    3. 根据产品特点设计自动化测试解决方案。
任职要求
    1. 计算机相关专业本科及以上学历,6年以上的工作经验,3年以上测试开发经验;
    2. 优秀的的开发能力,能用Java/Python/Shell进行快速开发;
    3. 熟悉软件测试技术、流程、理论、方法,熟悉常见测试管理系统,理解主流自动化测试工具、框架(如selenium、jmeter、RF等);
    4. 很强的分析问题能力,能坚持原则,有项目管理概念,有产品概念。
加分项
    1. 有大数据、云计算、机器学习算法的测试经验;
    2. 有企业级私有化软件测试经验。

数据产品经理

工作职责
    1. 负责数据治理产品的市场调研、需求分析,完成需求文档、原型和API设计;
    2. 产品的生命周期管理,在研发、开发、发布和迭代过程中负责沟通;
    3. 负责用户体验优化。
任职要求
    1. 本科或以上学历;
    2. 熟练掌握各种产品原型工具和PRD文档编写;
    3. 较强的逻辑思维能力,充分理解商业目标,对市场、行业有自己的调研方法;
    4. 善于换位思考,善于跟客户沟通,较强的场景抽象能力;
    5. 有极强的跨团队协作能力和执行力,能承受较大的工作压力。
加分项
    1. 有企业级软件产品设计经验;
    2. 有云计算、大数据和人工智能产品设计经验;
    3. 有中台研发团队工作经验。

[得到大学课程作业] 利用“教育家思维模型”管理长期目标

  前一阶段CEO对我所在部门进行了调整,剥离了短期业务,剩下的人被明确赋予了一个长期目标。这个目标实现难度很大,但战略上对公司非常重要。

  我很同意“教育家模型”这一课的一句话:“管理长期任务的挑战是,时间会稀释你的目标感。”此前我们部门的目标感的确有点模糊。某种意义上,这次组织调整,就是公司高层在用最直接的行动点一下。因此组织调整后,重点如下:

1. 把精力放在统一目标上:

  通过All hands和头脑风暴等形式,统一团队共识,让每个人都弄明白这个部门的使命和路线图。我们并不是要求大家像阅兵方阵一样机械统一,相反,希望一线同学根据具体情况作出更高效合理的决策,只要每个人清楚目标和底线在哪里,不南辕北辙。

  进一步也花了很多时间和其他部门沟通。总之,把目标昭告天下,争取所有人的知晓和配合。

2. 用持续行动维护信用

  我们定下规矩,每两周,副总裁和总监们都要深度讨论和复盘一次。有时候会上吵的很凶,但最终,做了不少“艰难但正确”的决策。

  例如,决定向另一个团队让出一块成熟而容易出绩效的业务。因为这个产品与我们的战略目标关系不大,应该把人手撤回来,保证核心战场的“范弗里特弹药量”。

  这个行动清楚告诉所有人:“我们是认真的”。一线同学的注意力变得集中;与“礼让跑道”的兄弟部门之间,边界更清楚,信任感更强,他们经常主动为我们提供各种关键的火力支援。

  总之,从我的实际体会来看。拥有一个长期目标,虽然一时会面临更复杂困难的局面,但处理好的话,这个目标本身就会变成一面旗帜,让各种人和资源向你聚拢。(具体而言,应该做到“耐心沟通统一目标”、“知行合一维护信用”这两点。)像滚雪球一样,越往后,自己、团队和友军越能获得更多成就感。

[得到大学课程作业] 利用“指挥家思维模型”推动多部门复杂协作

  这个季度,由我的部门牵头推动一个重要项目。该项目对公司具有的战略意义,但是难度又很大,尤其是复杂度很高,涉及到7个不同的部门(算法研究院、1个数据中台团队、1个硬件中台团队、1个系统中台团队、3个前台行业部)。所有部门都有各自不同的打法,例如:

  • 对硬件团队而言,开一次模上百万,换个供应商一般12个月才能保证稳定。
  • 然而,对前台行业部来说,紧贴客户订单quick and dirty,因为每半年要根据业绩末位淘汰。

  我是怎么解决的呢?借鉴“指挥家思维模型”,在立项时,通过和各方的反复沟通,统一了重点:

  1. 明确业务节奏和进度里程碑。确保业务节拍不同的团队,互相能够产生节奏配合,例如硬件产品推出前大约4个月,市场团队已经开始上一代产品的回访和新技术布道。

  2. 规定各个层次产品和业务的关键产出。划出下限,确定最坏情况下也必须限时拿下的山头。同时提前准备好风险预案。

  3. 安排内部“吃自己狗粮”团队和Beta天使客户。每一版新产品刚推出,都会在特定的内外部用户先期投入试用,听取反馈,验证产品可行性。通过Alpha 和Beta测试,建立标杆项目,总结最佳实践手册以后,再大范围推广。

  总之,通过抓住“同步节奏”、“划定下限”、“先期排练”这三件事,推动复杂的战略项目逐步落地。

皮亚杰的《结构主义》和自我意识基因

  我很少看哲学书。读皮亚杰的这本《结构主义》,大脑动不动就过热死机,放下,过一段再读,又死机……一直折腾了三个星期。要不是这期间有10天在深圳广州出差,累的时候换脑子,这本书估计读不完。

  简单解释的话,结构主义者认为,事物整体并不等于个体元素简单求和。元素之间的关系,也就是“结构”,甚至比具体的某个元素还重要。举个例子,一首曲子,如果提高8度,虽然所有音符都换掉了,但我们还是能识别出这是同一首音乐。因为曲子内部的“结构”,也就是旋律,没有变化。

  皮亚杰对“结构”做了专业的逻辑形式定义。如果将这种抽象的定义映射到数学上,恰恰就是我们计算机专业熟悉的离散数学的那一套体系:群、环、域。而函数映射,就是这些代数系统的“结构”。在物理学、生物学、社会学、语言学等领域,《结构主义》都有专门章节进行论述。

  好了,概述讲完了,剩下的细节,感兴趣的同学自己去读书烧脑吧。

  八卦了一下,皮亚杰博士学位读的是生物学,后来跑去研究儿童心理学。人并不是生下来就具有完整智能。成人的心理状态,实际上是青少年时代连续不断演化的结果。皮亚杰描述10岁之前的孩子,心理演化大概分为三个阶段:

  第一个阶段,注意到因果,训练自己的条件反射,例如很多婴儿用手挡住阳光,再拿开,再挡住,再拿开……这种行为和结果之间的联系,让小孩子很兴奋,不断重复。

  第二个阶段,学习语言,了解世界表面上的浅层联系,这个阶段的孩子,喜欢模仿周围所有人的语言,并逐渐学会自己组织表达。但是他们只能理解实体和名词之间的映射。

  第三个阶段,开始有了抽象的思维,开始有逻辑,开始学习数字……

  需要注意的是,心理状态并不是静态的,到某一天突然跳到下一个阶段去。而是持续不断的进行内部映射和更新,进而重构整个操作系统。这里说的“映射”,皮亚杰又称为“运算”,其实和前面提到的数学上的“函数”概念几乎完全一样,就是“结构”的一种具体体现。

  皮亚杰认为,儿童心理演化之所以有其必然方向,一定是因为某些客观的物质基础造成。限于当时的科技水平,这个物质基础还不清楚。

  然后,好玩的事情就来了,前两天我们和一位遗传医学专家在北京机场T3航站楼吃饭,她提到一件有意思的事情。

  达尔文曾经拿了一面镜子给红毛猩猩看,红毛猩猩在发现周围并没有第二只红毛猩猩之后,就坐到镜子前做起了鬼脸来。黑猩猩也一样,心理学家在它的眉毛和耳朵上做了记号,黑猩猩发现镜子里的影子被涂花了脸,很自然地用手去摸自己的眉毛和耳朵。人类儿童在12个月到24个月开始有自我意识。研究表明,类人猿、大象、海豚、猪还有喜鹊也拥有镜子前的自我意识。但是,其它大多数动物都不能识别镜子里的自己,会对镜子里的影子表现出很高的攻击性。

  中国的生物学家对所有这些动物进行基因测序,对比有自我意识和没有自我意识的两组动物之间的基因差异。他们发现了一个基因位点。恰好这个基因位点和一种罕见的疾病有关,患了这种疾病的人能感受到刀子割手的疼痛,但是在平常生活中,总是不慎弄伤自己,仔细观察发现,他们在刀子快割到自己的手,或者火焰快烧到身体的时候,并不懂得躲闪。

  所以这个基因位点和它所在的功能通路,有可能正是自我意识的物理基础。

又来上海

  2016第三届科学数据大会在上海复旦大学举办。8月25日下午我会在高性能计算与大数据分会场做一个分享,欢迎大家来听。明天我会去听精准医疗分会场的报告。希望认识更多朋友。最关键的,希望收到简历和人才推荐。

  最近开始疲惫和焦虑。有一天早起,居然有溜号不上班的念头。对我这种跳着踢踏舞上班的人来说,这很少见。很长时间没休假,看来需要充充电了。

  到上海的高铁,买了一本海莲·汉芙的≪查令十字街84号≫,几乎不喘气读完。真棒!同时发现自己彻底放松下来了。然后突然特别困,眼皮都抬不起来,睡得不省人事,直到列车员查票。发社交网络称赞,才被科普,火车站书店之所以会放一本小众的文艺作品,是因为最近有一部畅销电影提到了它。

  刚到上海,收到邮件,有个客户申请GeneDock的邀请码,看地址离我很近,于是去拜访。见完客户,又发现离贝壳社上海的办公室很近,就跑去玩。遇到了以前就认识的朋友,才知道他找到了合适的合伙人,获得了贝壳社的投资,赞!然后又遇到了另外一个创业者,基因行业最著名的猎头。有些话题只有创业的人才能真正互相理解。(聊了好久,我差点耽误了晚上的视频面试)。

谈谈ODPS商业化(六):ODPS小伙伴SLS和DPC

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……

  在典型的大数据解决方案里,除了以ODPS这样的离线分布式计算引擎为核心,周边还需要日志收集、开发IDE、工作流调度、数据质量监控、BI报表等等一系列配套机制。因此ODPS用户往往还会对SLS和DPC等服务感兴趣。

  先说SLS(简单日志服务),这是阿里云提供的针对日志收集、存储、查询和分析的云服务。用户只需简单地配置日志产生的位置和格式等信息就能实时查询海量日志。用户也可以把SLS日志归档保存到ODPS中做更多数据分析。

  简单来说,SLS提供一个名为Logtail的客户端,把它部署到需要监控的机器上(阿里云云主机默认安装),配置好以后,Logtail会定时把本地的日志文件(例如Web Sever的access_log或DB的bin-log)上传到后端的RESTful API,然后用户就可以在后台利用SLS对日志进行简单的实时过滤和处理。CNZZ就基于SLS进行全网日志数据的收集。更多SLS细节请参考官方主页

  SLS在ODPS里面有一个project名叫sls_log_archive,用户打开推送功能后,SLS会定时把数据推到特定名字的表里(Project+Category),用户可以再执行一个简单的SQL把数据拖到自己的Project里。可以参考这篇用户文档。然后用户就可以写SQL把数据导入自己的Project,下面是个简单的SQL例子,第一句是在自己project创建一个表,第二句是创建相应时间段的partition,第三句是导入数据

  CREATE TABLE mylog LIKE sls_log_archive.XXXXXXX;

  ALTER TABLE mylog ADD PARTITION(__partition_time__=’2014_06_24_12_00′);

  INSERT OVERWRITE TABLE mylog PARTITION (__partition_time__=’2014_06_24_12_00′)
SELECT __source__, __time__, __topic__, _extract_others_ FROM sls_log_archive.XXXXXXX where
__partition_time__=’2014_06_24_12_00′;

  日志数据导入ODPS,就可以利用它的强大能力深入分析SLS收集上来的日志。这里有一篇BLOG很值得推荐

  接下来介绍DPC,它是基于ODPS的DW/BI的工具解决方案。DPC提供全链路的易于上手的数据处理工具,主要提供如下四种能力:
  1.把各种数据源的数据(例如RDS)拖拽到ODPS
  2.提供IDE开发界面和SQL代码管理能力
  3.任务调度功能
  4.通过拖拽和可视化的方式进行数据分析,并通过BI报表进行数据可视化展现。
  有了DPC,可以大大降低ODPS用户在数据仓库和商业智能项目上的实施成本,加快实施进度。天弘基金、高德地图的数据团队基于DPC完成他们的大数据处理需求。 更多DPC细节可以参考官方主页

  有了ODPS+SLS+DPC小伙伴,就可以支持典型的大数据工作场景了:日志收集、数据开发和定时生产。还有更多ODPS小伙伴正在开放的路上,例如流计算和实时查询,请大家关注阿里云网站。

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……

谈谈ODPS商业化(四):2014阿里巴巴大数据竞赛

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……

  几天前2014阿里巴巴大数据竞赛刚刚落下帷幕,第11名的F1分数、准确率和召回率是6.10%、6.28%和5.93%。前10名的成绩还未公布,他们会被邀请到阿里巴巴公司来,有机会和内部团队一起参与双11。选手们闲下来,开始在群里爆特征、开玩笑、交换联系方式。

  这次海内外共有7276支队报名。比赛分为多个阶段:S1是线下海选,从S2开始上ODPS,每月底淘汰末位的100支队,直到7月31日尘埃落定。选手们需要像阿里数据分析师一样工作,完全依赖云端的ODPS平台上的SQL、Mapreduce和Xlib/Xlab算法工具处理大数据,E2E完成建模全过程:划分训练集和测试集,选择模型,抽取特征,处理过拟合,采样正负样本(向上采样、向下采样),调参,特征和目标值的处理,模型融合……几个月下来,有不少同学分享了心得和感悟:

  来着如临高山,往者以观逝水
  成也solo,败也solo
  事非经过不知难
  大数据竞赛所历所思
  点说那些年参加过的竞赛
  STO_OTZ队的比赛流水账以及心得感悟
  那些在坑里翻滚的日子
  一场比赛、一组数据、一个梦想
  ODPS SQL 构建离线评估
  超级啰嗦版ODPS MapReduce入门
  第一季总结:LR入门
  阿里大数据竞赛season1总结

  有次看到阿里云后台的客服工单:“想实现逻辑回归分类算法,使用随机梯度下降算法来优化参数,怎么在大规模分布式系统下实现?你们的xlib已经有了,我就是想问问^_^”。阿里云的售后支持mm真心累啊。发了一条微博说:下次再有这种调戏就回答“想知道吗,给我们投简历吧。”结果第二天就有参赛选手分享了这篇博客: 在MapReduce中实现随机梯度下降法(这篇文章对算法实现原理写得很清楚了,但用Mapreduce编程模型实现迭代类算法性能是很弱的,大多数人还是直接用Xlib实现好了的逻辑回归、随机森林、GBRT等算法)。

  还有好玩的,有一位在台湾上学的参赛者利用S1的参赛队的排名信息深入分析了一番,写了这个:阿里大数据 – 中国好大学

  比赛筹备一年多,很辛苦,很成功,恭喜得福和一婷。对于即将毕业的学生来说,关注并参与这次比赛,能深入体会工业界数据分析师的工作场景。另外,除了比赛内容本身,我想提醒读者注意天池平台。数据交换的业务模式已经开始萌芽。

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……