Tag Archives: 华大基因

2014再见!

  从阿里辞职创业两个月了,忙得没心境写BLOG。实在对不起订阅者。今晚给wangleheng.net域名续费,顺便上来敲两句,免得大家以为这里死掉了。接下来的更新节奏会逐渐恢复正常。

  先傲娇一下!念念不忘好多年,终于迈出关键一步。给自己点个赞。一个已经创业的本科同学给我发来贺电:“尝试改变世界,或者等死。很高兴又出现一个人选择了前者!”

  回来继续写总结。2014年初的这篇BLOG已明确提到今年要做的两件事:完成ODPS对外开放商业化,然后着手准备离职创业。现在看都做到了。我给自己打个90分。扣掉的那10分源自ODPS商业化过程中出现的大量问题。经验教训记住了。同事朋友们的善意也记住了。

  关于新公司的行业背景和介绍,可以参考我们在Qcon上的分享图灵专访。目前在宇宙中心——回龙观的居民楼里,距离地铁站步行2分钟,逆峰上下班。下面这张是我们的门神。

qintianzhu

  我们在招人。点这里看职位。公司提供机械键盘,人体工程学椅子,多显示器,不限量vpn,正版开发环境…这些要求对程序员来说并不过分!牛人把要求在简历里列清楚,我们赶快办入职手续吧:)也好尽早给推荐你的朋友发iPhone6。什么?女王范的美女产品经理?这个…快有了快有了…

pingmu

  互联网创业,工号是个位数的员工大都是在A轮之前加入的。这些同学的工作能力未必Top 1%,但往往拥有清晰的决策树,知道平衡点在哪儿,知道自己不要什么。观察每个人如何取舍、如何谈判并最终入伙是一件很好玩的事。Welcome aboard,各位GDer!系好安全带,这会是一段奇妙的回忆。

  至于我自己,纠结的时间不长。答应合伙人会出来一起创业的那天晚上失眠了,毕竟要放弃很多,例如大笔阿里股票,后来在手机上给某慈善基金会捐款了100块,平静下来,然后去睡觉。从那天开始,每天都比前一天更确定自己的选择是正确的。

  其实最近看到大量阿里的同学都出来。其中玄橙老大也看好生命科学这个行业,加入了即将上市的华大基因。他还写了一篇文章回忆叛逃的过程,据说最早还是被我忽悠的。

  如果你对创业感兴趣,又不太了解。推荐9月起YC的新主席Sam Altman与Stanford联合开的一门创业课,叫“How to start a startup”。我每晚和女儿玩游戏、哄她睡以后,就在手机上听一课。收获很多。这里是视频课程的网站。另外,罗胖在《逻辑思维》这一期视频讲得也很有趣。还有,我在读Startup: A Silicon Valley Adventure

  2015年要来了,祝大家都离自己的梦想更近一步。

谈谈ODPS商业化(五):华大基因在ODPS上做的试验

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……

  由于我正在着手做生物信息云计算方面的工作,很多信息不方便透露,这篇会很短。有兴趣的同学请找我线下交流。不过在阿里云上做基因测序创新的同学们不必担心,阿里云没有野心、也没有能力成为一个提供完整基因测序计算服务的公司。相反,ODPS等等产品一定是做底层通用平台该做的事,帮助生物信息应用上云更方便,和创业者们一起成长。

  回来开始说华大基因在ODPS做的试验。以前写过一篇博客提到过这件事。

  将基因测序仪输出的上亿条DNA片段拼接为基因组长序列,这个过程可以看作在一个超大规模的拓扑图上寻找欧拉路径。人类基因组包含30亿个碱基,目前基因测序一般会做30倍到50倍的扩增。利用典型的单机组装软件至少需要256GB的内存才可能完成基因组装,时间长达数天。

  ODPS Graph Task是面向迭代的拓扑图算法处理框架,提供类似Google Pregel的BSP并行编程模型。正适合支持一些超大规模拓扑图算法。

  去年10月5K项目测试期间,华大基因的生物信息专家基于ODPS Graph Task开发了一套基因拼接算法,在E.coli(大肠杆菌)、Bombus(熊蜂)和Yanhuang(人类)三个物种的测试集上均取得了非常高的加速比。

  此前一直关注Google在生物信息领域重兵投入。自从Google Genomics API推出,形势就更加明确了。另外一边,据称亚马逊AWS美国有1/4的客户来源于生物制药行业。生物信息显然是云计算的重要业务增长方向。随着全球第一张基因测序临床牌照的颁发,已经可以看到国内大量围绕基因测序的创业项目起来了。目前ODPS团队正在和多个生物信息领域的合作伙伴一起努力,把各种生物信息经典算法和数据处理流程搬到云上来。如果你正在做这方面的产品、创业,欢迎和我联系,阿里云会尽可能提供关键帮助。

  另外我刚刚在知乎和知因同时发起了问题:生物信息还需要云计算提供什么样的功能?生物信息应用上云,你碰到了哪些问题?现有的阿里云、亚马逊AWS云计算基础设施需要做哪些改进,为什么?目前你用的最多的云产品和Web Service API是哪些? 等待你的真知灼见:
  知乎:http://www.zhihu.com/question/24719395
  知因:http://www.knowgene.com/question/1639

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……

开发者大会现场印象:5K、华大基因和AmyPI

  上周跑到杭州出差,主要是参加阿里云开发者大会。ODPS临近对外开放,所以想了解一下生态环境。好玩的东西很多,先写两个:

5K集群和华大基因

  2013年8月,阿里云的飞天分布式平台成功实现单集群5000台、同时ODPS实现了多集群跨机房计算。国际上仅有Google、Facebook在内的屈指可数的几家公司拥有这样的技术!而5000节点单集群拥有的计算规模无疑是惊人的:

  · 10万核的计算能力
  · 100PB存储空间
  · 可处理15万并发任务数
  · 可承载亿级别文件数目
  · 100TB 排序30分钟完成,是现有世界纪录的两倍以上

  9月,阿里云把其中一个5K集群拿出来,搞了一次开发者ODPS体验。这是全球范围内第一次把如此强大的计算能力以公共服务方式分享给开发者。 参加的团队基于ODPS和5K集群都做出了很多有趣的成果。例如CSDN利用5K集群对人群标签进行数据挖掘。

  而我最感兴趣的是华大基因在生物信息领域的开发工作。华大研究院的牛人们ODPS上实现了两个大规模的算法。其中一个是MapReduce的,另外一个短基因拼接图算法使用到了ODPS Graph Task编程接口(类似Google Pregel的BSP编程模型)。两个算法都取得了非常好的效果。这次大会华大基因的同学们做了报告,台下一片膜拜。他们也因为这次的工作,获得了5k体验的最佳工作奖。

  这次会上见到华大基因的陈钢博士真人,聊了不少。希望有机会业务合作。

  顺便提一下,自从华大基因收购了CG,美国的竞争对手就开始恐惧。如果明年华大上市成功,这个领域就会热起来,像当年的新浪。华大加油!

AmyPI

  这次开发者大赛前20的产品有专门的展台,我跑去逛了一圈,很多东西都很有趣。其中“AmyPI市场”引起了我的兴趣,这是一个帮助云服务管理API架构,并提供计量计费服务的独特产品。这种有深度的东西出来了,说明阿里云的生态系统真的建立起来了。我就和展台上的负责人聊了一段。

  说起来还挺有趣,我第一次和AmyPI负责人聊,忘记交换名片了。后来又路过他们展台,就把自己的名片递过去。当时看那位负责人在忙着和别人交流,就没打搅他。

  过一会儿他打电话找到我,问有什么事,我很奇怪,“我们刚才聊了好久,你不记得了?”

  人家笑了,“你一定是和我弟弟聊的……”

  汗,原来是双胞胎一起创业,真的分不出来谁是谁。

  最终AmyPI得到了云峰奖,银杏谷资本还现场签约投资他们,恭喜恭喜!希望这个产品能不断发展。希望出现更多AmyPI这种有技术含量的、专注而深入的专业级服务。

这一期《程序员》杂志……

  这一期《程序员》杂志是大数据专题,俺们alidata部门同学的文章好多呀。关于数据产品的那篇文章里,用淘宝指数举例:“周大福钻石搜索人群68%都是女性,而成交人群100%是男性。”

  悲剧的是,在华大基因的陈钢和余昶两位牛人写的《生命科学中的大数据》中,居然看到了俺的名字。实在愧不敢当。只是一个跳槽的小兵。影响不到行业大势。我目前在阿里数据的ODPS团队,近期的业务方向与生物信息基本无关。

  据说我面试时,以前的工作背景的确加了一点分。阿里关注生物信息领域对云计算技术的需求也很正常。Google对DNAnexus投资是风向标。但目前国内的生物医疗大数据的市场产业化尚处于萌芽期,要说“布局”可能为时尚早。

  这篇文章最后的描述是真的:目前生命科学和计算机两个专业的就业情况是“冰火两重天”,尚在产业化前期的生物信息公司招募人才遇到很大麻烦。但也像他们说的:“市场正在打开,资金正在进入,人才还是很缺乏,这似乎是个好消息。”

  上次说过,华大基因近期势如破竹,收购Complete Genomics成功,上市的进程丝毫没受金融市场的坏天气影响。这是一家值得尊敬的中国创新公司,基因组学领域的华为。

  说起来,最近有一篇吐槽生物信息的BLOG很热。是这篇A farewell to bioinformatics,对此news.ycombinator.com上讨论得很热闹。我仔细看了看这篇BLOG,很多对生物信息的吐槽其实挺中肯的。但生物信息仅是生物学家的工具之一。从孟德尔种豆子起,生物学就是一门面临复杂背景噪音的学科,要证明一个假设,往往需要综合各种手段相互验证。对生物学家而言,生物信息学不一定100%可信,但也绝不是最差选择。

  找个机会和生物信息领域的朋友们深入交流一下。

华大基因收购Complete Genomics

  美国基因测序公司Complete Genomics周一宣布,已同意接受世界最大的基因测序公司深圳华大基因价值1.18亿美元的收购要约。

  华大基因威武呀!这么坏的外部环境下,上市的脚步依然没有停。这次收购的财务顾问是花旗,应该是打算海外上市。

  搜索到了Complete Genomics上个季度的财报,销售八百七十万美金,亏损一千八百万。果然是撑不下去了。

  另外华大基因宣称明年花6000元人民币就可做全基因组检测。这个价格已经降到可以进入医院了。想当年人类基因组计划,多个国家科学家联合工作,耗资几十亿,才测出了一个人的基因组。这十年间基因组技术的进展,可比摩尔定律快多了。

  替各路“云”着急,只顾着价格战口水战,一点都不懂抬头看路。华大基因一家租用计算和存储的胃口,就能把国内云计算市场的座次完全颠覆。