Category Archives: 科技评论

谈谈ODPS商业化(一)

  首先深深道歉,居然五个月没有发BLOG。这几个月是我近年来最辛苦,心理压力最大的一段经历。也直接导致很多生活习惯被打破,例如早睡,例如定期备份工作目录,例如定期修改登录密码,再如逛书店,也包括每周写一两篇博客。这些习惯现在正逐渐恢复。感谢回来的读者。

  很多人可能已经知道了,ODPS在7月上旬终于实现了一期商业化,部分功能结束邀请试用,全网开放,开始收费。大家可以访问阿里云官网开通ODPS服务,并下载用户手册和SDK客户端。除了阿里云以公有云的形式对外租用ODPS的存储和计算能力,还有两个渠道可以使用ODPS:御膳房,是阿里数据平台事业部推出的大数据解决方案,可以支撑淘宝天猫大买家和ISV利用阿里丰富的数据;天池,是阿里技术发展部的平台,主要针对高校和科研单位进行合作,目前正进入冲刺阶段的2014阿里大数据竞赛就是基于这个平台举办。

  阿里对ODPS做了很多宣传,网上看到不少讨论。如果要了解ODPS的方方面面,我认为下面对子楠和常亮的采访是比较好的资料:

  汤子楠:飞天、ODPS经历了许多血淋淋教训

  徐常亮:ODPS的愿景、技术实现与难点

  还有不少朋友在知乎上问与ODPS有关的问题,我们也都尽可能做了回答。

  尽管刚刚对外开放,已经看到大量的第三方用户上来,在ODPS上做各种各样有趣的大数据业务。尤其是各个领域的创业团队给我留下了深刻印象:金融保险、电商营销,运动手环,手机游戏,基因测序……

  接下来我会写一系列的博客,从个人观点谈一谈ODPS的产品和业务。计划谈的主题可能包括:

开发者大会现场印象:5K、华大基因和AmyPI

  上周跑到杭州出差,主要是参加阿里云开发者大会。ODPS临近对外开放,所以想了解一下生态环境。好玩的东西很多,先写两个:

5K集群和华大基因

  2013年8月,阿里云的飞天分布式平台成功实现单集群5000台、同时ODPS实现了多集群跨机房计算。国际上仅有Google、Facebook在内的屈指可数的几家公司拥有这样的技术!而5000节点单集群拥有的计算规模无疑是惊人的:

  · 10万核的计算能力
  · 100PB存储空间
  · 可处理15万并发任务数
  · 可承载亿级别文件数目
  · 100TB 排序30分钟完成,是现有世界纪录的两倍以上

  9月,阿里云把其中一个5K集群拿出来,搞了一次开发者ODPS体验。这是全球范围内第一次把如此强大的计算能力以公共服务方式分享给开发者。 参加的团队基于ODPS和5K集群都做出了很多有趣的成果。例如CSDN利用5K集群对人群标签进行数据挖掘。

  而我最感兴趣的是华大基因在生物信息领域的开发工作。华大研究院的牛人们ODPS上实现了两个大规模的算法。其中一个是MapReduce的,另外一个短基因拼接图算法使用到了ODPS Graph Task编程接口(类似Google Pregel的BSP编程模型)。两个算法都取得了非常好的效果。这次大会华大基因的同学们做了报告,台下一片膜拜。他们也因为这次的工作,获得了5k体验的最佳工作奖。

  这次会上见到华大基因的陈钢博士真人,聊了不少。希望有机会业务合作。

  顺便提一下,自从华大基因收购了CG,美国的竞争对手就开始恐惧。如果明年华大上市成功,这个领域就会热起来,像当年的新浪。华大加油!

AmyPI

  这次开发者大赛前20的产品有专门的展台,我跑去逛了一圈,很多东西都很有趣。其中“AmyPI市场”引起了我的兴趣,这是一个帮助云服务管理API架构,并提供计量计费服务的独特产品。这种有深度的东西出来了,说明阿里云的生态系统真的建立起来了。我就和展台上的负责人聊了一段。

  说起来还挺有趣,我第一次和AmyPI负责人聊,忘记交换名片了。后来又路过他们展台,就把自己的名片递过去。当时看那位负责人在忙着和别人交流,就没打搅他。

  过一会儿他打电话找到我,问有什么事,我很奇怪,“我们刚才聊了好久,你不记得了?”

  人家笑了,“你一定是和我弟弟聊的……”

  汗,原来是双胞胎一起创业,真的分不出来谁是谁。

  最终AmyPI得到了云峰奖,银杏谷资本还现场签约投资他们,恭喜恭喜!希望这个产品能不断发展。希望出现更多AmyPI这种有技术含量的、专注而深入的专业级服务。

Google为何进军生化领域?也许是因为老板要离婚。

  TIME报道:Google投资成立了一家名叫Calico的生物技术公司。Apple董事长Arthur Levinson也参与投资而且担任CEO。Arthur Levinson自己是生化专业的博士,也是Genentech的董事长。没透露太多细节,但是新公司的愿景听起来口气很大。

  从2005年起就一直在猜测,Google什么时候会大规模进军生化领域。最近的一次消息是DNAnexus在2011年获得Google Ventures投资。Google还将利用自身的IAAS对DNAnexus提供技术支持。因为预算吃紧美国政府关闭了NCBI,所以DNAnexus的DNA数据云服务有望成为生化科研的公共数据基础。

  Google为什么对生化领域有浓厚兴趣?Google两个创始人Sergey Brin和Larry Page都娶了生物信息专业美女。Larry Page患有罕见的神经系统疾病,阻碍声带的动作,无法在公众场合演讲。另外Larry Page还患有桥本氏甲状腺炎。而Sergey Brin的妻子Anne Wojcicki创立了著名的基因技术公司23andMe(也被Google投资)。前些年Sergey Brin尝试23andMe的DNA测序服务,发现自己患上帕金森症的概率很高。

  八卦一点:最近Sergey Brin在闹离婚(新闻炒得很热,原安卓系统的负责人Hugo Barra被Sergey Brin抢走了女友,怒而投奔雷军的小米),Anne Wojcicki和Sergey Brin已经分居。所以我猜,23andMe指望不上了,那就索性自己投资一家。

  至于国内互联网,腾讯研究院2010年发表过一篇学术论文:How to build a DNA search engine like Google? 还申请了与此相关的专利。2011年公开了实验性的DNA搜索引擎。阿里云和华大基因也有试验性的业务合作。倒是百度没听过这一类消息。

  八卦写完了,稍微说点严肃的。上月美国高等法院裁定基因是“自然造物”,属于不能申请专利之范畴。然而,法院同时认定,cDNA作为细胞基因的人工复制品,可以申请专利。诉讼中的一方是Myriad Genetics公司,分别在1994和1995年为两个乳腺癌突变基因BRCA1/2申请了专利。现在BRCA1/2本身不再受限,但cDNA专利会让其他竞争对手的研究过程异常艰难。

  关于生物信息创业,以前还写过一些业务需求技术特点

把事做成

  前一阵参与组织阿里巴巴大数据暑期学校,自然会和参加的同学们聊起求职。我发现90%的同学都希望进数据建模团队,而不是数仓团队或分布式平台开发团队。我猜很多同学没踅摸过职业成长,仅仅因为数据分析师高端大气上档次,而程序员听起来很屌丝。

school
阿里大数据暑期学校,晓风正在和同学们讨论PCA和SVD算法

  怎么说呢,BI团队当然个个都是精英,但并不像很多同学想的那样高帅富:数据分析师负责阳春白雪的统计机器学习,剩下的编程、调BUG、看机器这种粗活自有旁人打理。事实上,无论哪个团队都没有“旁人”跑龙套擦屁股,你得挽起袖子把一件事从头做到尾,十八般武艺样样皆通。举几个我们阿里数据平台部门的几个人当例子:

  数据挖掘团队的晓风,数学功底当然不用多说,然而他也是一个C++和分布式编程老手,从当年的ACE、ICE、DCOM到现在的Hama、GraphLab都会。

  基础数据团队的市丸,数据仓库那些生产业务当然不在话下,同时他也用MR和BSP编程模型开发了不少能处理上亿行的数据样本的大规模分布式算法,例如SVD和Pagerank。

  产品团队老大玄澄,麾下一群古灵精怪的美女PD,做出淘宝指数、数据魔方、淘宝时光机、淘宝日历APP……他整天玩乐高玩具,体验各种新鲜玩意儿(例如基因测序),办公区供着乔布斯牌位,踅摸用户体验创新……其实,人家是北大数学系的。

  至于俺们ODPS团队,很多人也都是十项全能,我就不自吹自擂了。

  就我的经验,对个人成长最有帮助的职位,往往正是那些最苦逼的、点灯熬油、枯燥容易出错的活儿。例如我们这里专门负责半夜值班盯住数据生产基线的batman团队,那可不是随便什么新兵蛋子就能混进去的。报名上百人,只选了十几个,都是各团队最牛最靠谱的业务骨干,这些人正是公司的重点栽培对象。上次去杭州出差,我特意混进去和蝙蝠侠团队一起值了一次夜班,一晚上的收获比正常情况下几周都多。

batman
传说中的蝙蝠侠团队

  主动扎到最复杂的、接触全局的业务里去,耐心一点,挽起袖子做好水面以下的力气活,为团队提供独特贡献,把事做成。这才是最快的成功路径。想加入互联网公司的年轻人一定要弄清楚,这个行业的业务核心就是编程,你首先必须是个合格的程序员,再谈其他。这就和空军里没有开过飞机的人没资格升师长、海军里没在甲板上起降过飞机的人没资格升航母舰长一个道理。

  最后打广告,阿里数据缺人。数据分析师,数仓工程师,算法开发工程师,分布式平台开发工程师,测试和配置管理……欢迎找我内推。

数据挖掘,微博,股票,星座和新年假期

  SNS数据挖据热度持续不降。

  前一阵数托邦工作室(DATATOPIA)利用微博数据进行数据挖据,发表了这篇关于《小时代》观众人群的分析报告,获得了很大的反响。根据数据比较,《小时代》观众的平均年龄非常低,很大比例来自二线城市,很大比例是女性,很大比例用iphone,很大比例喜欢《快乐大本营》。网上很多批评《小时代》的北上广大叔未必真正了解这群消费者。我在淘宝指数和百度指数上验证了一下,和文中的统计结论差不多。

  上个月奥巴马被刺杀的假新闻引发股灾,也是由于数据挖掘自动触发导致的。越来越多的投资公司实时监控社交媒体用于股票量化交易(据研究,Twitter情绪和股票走势之间有7分钟的提前量)。前一阵光大银行的投资事故占满报纸头版。这两天纳斯达克系统又崩溃了,最近这一两年事故真多,都是高频交易惹的祸。再加上“互联网金融”让传统银行和基金坐立不安。互联网屌丝正在颠覆金融高帅富。

  说到数据分析,《福布斯》杂志总结了Top 500的亿万富豪,发现处女座最多。被大黑特黑的处女座们一片欢呼!较真一点的话,子柳在知乎上的一个回答中提到,关于星座倾向性,必达团队曾严肃分析过淘宝消费数据,结论是“出生月份与行为模式无关”。由子柳的解释可以大概猜测到,中国的富翁中可能是天蝎座较多。中西方差异源于圣诞和春节之间的时间差,你懂的。

天河这种大型机还有存在的必要吗?

  在知乎上回答了一个问题“有了分布式计算平台后,像天河这种大型机还有存在的必要吗?”

  超级计算机其实也是分布式集群架构,和普通集群很类似,编程模型都是MPI、Mapreduce那一套。稍有不同的是:

  1.超级计算机用infiniband背板提高各节点间的网络IO,常规分布式集群一般都是千兆、万兆网卡。
  2.超级计算机一般会配高档的磁盘阵列,而GFS+Mapreduce方案底层基于挂在各节点上的普通硬盘。
  2.超级计算机会使用更先进的CPU和GPU,更多内存。
  3.由于发热强劲,很多超级计算机采用水冷。

  从这些细节可以看出:

  1.超级计算机更适合计算密集型作业,如果用MPI算核物理、天体物理、蛋白质折叠、渲染《阿凡达》、求解普通PC上需要几千万年的迭代方程,那么就应该用超级计算机。反过来,分布式集群Mapreduce适合IO密集型的作业,加上成本低,可以把集群规模搞得很大,因此最适合扫描过滤海量的数据,例如互联网行业的经典应用:为搜索引擎创建全网Web页面的索引。

  2.超级计算机造价更昂贵,维护成本也高,甚至每小时电费就得上万元。记得我以前做蛋白质搜索引擎的时候,在某台国内最大的超级计算机之一跑过一个80分钟的job,花了老板5000多块上机费(因为我们有项目合作,人家已经给我们打了很低的折扣了)。不过这些作业用MapReduce在普通分布式集群上跑,跑了好几天。

  云计算是建立在廉价分布式硬件+牛B的软件系统设计上,在商业上越来越成功。所以正在抢占传统超级计算机的用户市场。例如阿里云刚刚和国内的动画公司合作渲染出来的《昆塔》,计算量是阿凡达的四倍。不过就我所知,各大传统超算中心其实依然是排队、忙不过来的。随着国内经济的升级,很多造船、石油、材料、生物、天体物理、军事领域的计算需求都很强烈,这一类计算密集型任务,性能和时间往往比成本更重要。

产品经理应该怎么起步

  在知乎上回答了一个问题“想成为产品经理,应该怎么起步?”

  1.找到一个有意义的项目,跳进去;

  2.把开发和测试同学不想做的活儿都做了。比如写文档、出席无聊会议、收集客户意见、写部署和测试用的一次性python小脚本、团队熬夜加班的时候给大家买夜宵……;

  3.花大量的时间,系统深入地思考你们正在做的产品(警告你,大多数人在这一步会卡壳,停留在协调人和团队秘书的角色上),整理成文字;

  4.向团队展示自己的思考逻辑和结果,说服他们做某事,给项目和产品的未来带来好处。

  我进入现在在做的ODPS组的方法是,在他们都在客户现场加班的时候,参加进去每天一起加班到半夜。要来上百页的用户手册,把里面几百条指令一条一条动手试用了一遍。然后花两天时间写了一个教新用户上手的《入门手册》,并且提交了若干个测试中发现的bug。

  再早,还在pFind蛋白搜索引擎的时候,去生物学家的实验室收集软件需求。就陪着他们杀老鼠,熬夜做实验,每2小时闹钟叫醒添加试剂并记录数据,在高辐射或剧毒环境下处理试验样品。最重要的,和他们一起体会,因为生物信息数据软件设计考虑不周导致前面的一切都必须再做一遍时,那种巨大的愤怒和无奈。

  别以为自己是当诸葛亮,掐指一算,羽扇一指,千军万马就冲杀上去了。产品经理,是一线领头冲锋的工兵,要给身后的兄弟们搭桥、排雷、探路。

  最近算法平台产品推进好纠结,我得拜一拜乔帮主。

jobs

关于建模思路

  大数据的商业模式,目前能看清楚的有两种:互联网小微金融(参考这里)和精准广告投放(参考这里)。这两项业务的建模团队正是分布式算法产品的主要客户。

  尽管拥有相同的数据和平台,金融团队和广告团队的思路却有差异。例如同样使用逻辑回归,金融BI偏向传统统计学,应用银行业经典的“评分卡”建模,强调严谨的假设验证和细致的特征工程;而广告BI倾向于机器学习方式,把上亿行样本的上万甚至上亿列特征一口气扔进建模算法里面去自动迭代训练,更粗暴,更敏捷。

  技术路线常常源于业务需求。在广告营销领域,通过A/B Test获取反馈的成本较低,模型的更新节奏也比较快,业务方也不关心模型内部细节。而金融风险模型直接作用于真金白银,信息循环沉淀的周期又长达数月,因此建模思路偏保守,模型上线之前风险委员会的review很细致,往往得把所涉及到的每一列特征都讲清楚。

  算法平台团队对此感触很深。前一阵,两个BI团队的数据科学家终于凑到一起开会。交锋很有意思,例如把模型当作白盒还是黑盒来用,再如特征工程中的很多人工操作能否用自动化蛮力替代。

  会上我也说了几句。必须重新审视建模流程的各个环节,也许一些招数其实源于小数据时代计算资源有限导致的妥协。今天我们有了上万节点处理上P数据能力的平台,建模必然面临创新。

再见,Google Reader

     Since October 26, 2005 you have read a total of 31,425 items.

  这是我在Google Reader这些年的历程,没想到如今要说再见。这帮家伙真是买椟还珠。上次有这种感觉,是微软放弃Spaces

  今天网上到处都是对Google Reader之死的哀叹,以及对Google高层的愤怒。Google Reader的前产品经理Brian Shih在Quora上的文字,又要变成经典了。这虽然是一个有技术门槛小众产品,用户却大多是5年以上的互联网用户,行业的中坚力量,其中很多是有影响力的BLOG作者,也是如今在微博和微信上比较受关注的帐号。所以叹息的共振很强。

  据说feedly和鲜果都乘机推出了Google Reader搬家的服务。然后服务器都被挤崩溃了。上次说过,最近我刚好正在手机上试用几个App

  我的读者里也有很多是通过Google Reader订阅的,为了保持联系,请关注我的新浪微博帐号 @还是地雷。我的Blog还会写下去。感谢您的关注。

  BTW:刚刚飞回北京,春节之后“打飞的”很勤。有点忙有点累,读者们可能觉得这个BLOG技术上干货少了,不好意思。不过我在“憋大招”,敬请期待。

思考、刺激和恋爱的线虫

  上次好书不少。看完诺贝尔奖获得者Daniel Kahneman的《思考,快与慢》之后,不由自主进行三十岁大叔的半途反省。好多重要决策时,我们自以为理智在主导,其实是被原始的条件反射左右,而所谓逻辑,仅用于事后拼凑借口。

  说到刺激输入、条件反射和大脑决策。两年前我在BLOG上写过麻省理工Ed Boyden教授用激光控制大脑的试验。类似的心理学、药理学例子很多。例如剑桥68级心理系学生的集体恶作剧,他们成功地使得一位有名望的神经心理学家只呆在演讲厅的左边讲课

  Robert Galbrainth做过更加惊悚的的尝试:他们给一名24岁黑人男性(代号B-19)脑中9个不同的区域植入了内置电极。其中有的区域是大脑中的奖赏系统,电流刺激使B-19产生了愉快的感觉。如果把这个电极的控制器交给B-19,他就会不停地按,和吸毒一模一样。

  他们做了更过分的事:B-19是同性恋,看异性恋的性交录影没有任何性反应,并表现出反感。但是刺激B-19的奖赏电级后,他开始兴奋、勃起和手淫。路易斯安那地方法院通过后,请了一名妓女来实验室引诱B-19。她成功了。长达2个小时的性交。B-19甚至克服了连在脑袋上各种碍事的电线。

  经过几个月的恢复,B-19慢慢对异性又失去了兴趣。但他的认知出现矛盾、焦虑和强迫症,他的一辈子都被这个实验毁了。

  其实不用那么多高科技,电级啊、激光啊。最简单的环境设定,就能让小白鼠患上抑郁症。对人类而言,社会本身就是最吓人的实验室。我们和小白鼠一样不断被外界刺激训练,有规律的刺激形成条件反射,逻辑经验,甚至意识形态;而没规律的,则撕碎你的情绪、自尊和信仰。我们自己也是实验背景的一部分,对其他人输出酸甜苦辣的各种刺激。

  和ZW讨论过这个问题。现在越来越多的科幻电影倾向于怀疑世界的真实客观性,也许我们仅仅是仿真游戏里的一段代码变量,或某种高级生物培养皿里的线虫,我们以为自由自在,实际被分在不同的实验组和控制对比组,被施予线虫们永远不可能理解的各种实验试剂。ZW照例评价我是邪恶的理工科学男,然后说,如果真是这样,生活好没劲。

  不管落在哪个培养皿,有个线虫会陪着你一直走到最后。

  其实这篇BLOG写的不是理工科技,而是对美女的一篇酸酸的爱情表白,你们现在才发现吗,哈哈。在杭州出差。周末到办公室加班。想老婆孩子了。

BTW:这次给金融BI团队展示即将发布的最新版算法,原本需要运行一个月的算法,ODPS上只运行了70秒。客户很满意。金融贷款的big data算法里面,也会对淘宝卖家进行心理分析,判读其性格特质,通过模型测评他们对假设情景的掩饰程度和撒谎程度