Tag Archives: 生物信息

　　这篇BLOG是ODPS商业化一系列文章之一，更多请点击这里……

　　由于我正在着手做生物信息云计算方面的工作，很多信息不方便透露，这篇会很短。有兴趣的同学请找我线下交流。不过在阿里云上做基因测序创新的同学们不必担心，阿里云没有野心、也没有能力成为一个提供完整基因测序计算服务的公司。相反，ODPS等等产品一定是做底层通用平台该做的事，帮助生物信息应用上云更方便，和创业者们一起成长。

　　回来开始说华大基因在ODPS做的试验。以前写过一篇博客提到过这件事。

　　将基因测序仪输出的上亿条DNA片段拼接为基因组长序列，这个过程可以看作在一个超大规模的拓扑图上寻找欧拉路径。人类基因组包含30亿个碱基，目前基因测序一般会做30倍到50倍的扩增。利用典型的单机组装软件至少需要256GB的内存才可能完成基因组装，时间长达数天。

　　ODPS Graph Task是面向迭代的拓扑图算法处理框架，提供类似Google Pregel的BSP并行编程模型。正适合支持一些超大规模拓扑图算法。

　　去年10月5K项目测试期间，华大基因的生物信息专家基于ODPS Graph Task开发了一套基因拼接算法，在E.coli（大肠杆菌）、Bombus（熊蜂）和Yanhuang（人类）三个物种的测试集上均取得了非常高的加速比。

　　此前一直关注Google在生物信息领域重兵投入。自从Google Genomics API推出，形势就更加明确了。另外一边，据称亚马逊AWS美国有1/4的客户来源于生物制药行业。生物信息显然是云计算的重要业务增长方向。随着全球第一张基因测序临床牌照的颁发，已经可以看到国内大量围绕基因测序的创业项目起来了。目前ODPS团队正在和多个生物信息领域的合作伙伴一起努力，把各种生物信息经典算法和数据处理流程搬到云上来。如果你正在做这方面的产品、创业，欢迎和我联系，阿里云会尽可能提供关键帮助。

　　另外我刚刚在知乎和知因同时发起了问题：生物信息还需要云计算提供什么样的功能？生物信息应用上云，你碰到了哪些问题？现有的阿里云、亚马逊AWS云计算基础设施需要做哪些改进，为什么？目前你用的最多的云产品和Web Service API是哪些？等待你的真知灼见：
　　知乎：http://www.zhihu.com/question/24719395
　　知因：http://www.knowgene.com/question/1639

　　这篇BLOG是ODPS商业化一系列文章之一，更多请点击这里……

这一期《程序员》杂志……

3 Replies

　　这一期《程序员》杂志是大数据专题，俺们alidata部门同学的文章好多呀。关于数据产品的那篇文章里，用淘宝指数举例：“周大福钻石搜索人群68%都是女性，而成交人群100%是男性。”

　　悲剧的是，在华大基因的陈钢和余昶两位牛人写的《生命科学中的大数据》中，居然看到了俺的名字。实在愧不敢当。只是一个跳槽的小兵。影响不到行业大势。我目前在阿里数据的ODPS团队，近期的业务方向与生物信息基本无关。

　　据说我面试时，以前的工作背景的确加了一点分。阿里关注生物信息领域对云计算技术的需求也很正常。Google对DNAnexus投资是风向标。但目前国内的生物医疗大数据的市场产业化尚处于萌芽期，要说“布局”可能为时尚早。

　　这篇文章最后的描述是真的：目前生命科学和计算机两个专业的就业情况是“冰火两重天”，尚在产业化前期的生物信息公司招募人才遇到很大麻烦。但也像他们说的：“市场正在打开，资金正在进入，人才还是很缺乏，这似乎是个好消息。”

　　上次说过，华大基因近期势如破竹，收购Complete Genomics成功，上市的进程丝毫没受金融市场的坏天气影响。这是一家值得尊敬的中国创新公司，基因组学领域的华为。

　　说起来，最近有一篇吐槽生物信息的BLOG很热。是这篇A farewell to bioinformatics，对此news.ycombinator.com上讨论得很热闹。我仔细看了看这篇BLOG，很多对生物信息的吐槽其实挺中肯的。但生物信息仅是生物学家的工具之一。从孟德尔种豆子起，生物学就是一门面临复杂背景噪音的学科，要证明一个假设，往往需要综合各种手段相互验证。对生物学家而言，生物信息学不一定100%可信，但也绝不是最差选择。

　　找个机会和生物信息领域的朋友们深入交流一下。

华大基因收购Complete Genomics

3 Replies

　　美国基因测序公司Complete Genomics周一宣布，已同意接受世界最大的基因测序公司深圳华大基因价值1.18亿美元的收购要约。

　　华大基因威武呀！这么坏的外部环境下，上市的脚步依然没有停。这次收购的财务顾问是花旗，应该是打算海外上市。

　　搜索到了Complete Genomics上个季度的财报，销售八百七十万美金，亏损一千八百万。果然是撑不下去了。

　　另外华大基因宣称明年花6000元人民币就可做全基因组检测。这个价格已经降到可以进入医院了。想当年人类基因组计划，多个国家科学家联合工作，耗资几十亿，才测出了一个人的基因组。这十年间基因组技术的进展，可比摩尔定律快多了。

　　替各路“云”着急，只顾着价格战口水战，一点都不懂抬头看路。华大基因一家租用计算和存储的胃口，就能把国内云计算市场的座次完全颠覆。

yb和emily的论文发表了

3 Replies

　　刚收到DMQ教授的邮件，yb和emily的学术论文An Integrated Workflow for Identification of Cross-linked Peptides from Complex Samples很快就要发表在Nature Methods上了。

　　强烈祝贺。然后写点回忆，这是一个很长的故事。

　　第一次见到yb是搬着服务器去BPRC测试的时候。他还是实验室里的一个低薪临时工，干着不擅长不喜欢的边缘工作。但jw和lz评价说：“yb这家伙的坚定理想就是献身科学”。后来DMQ教授回国，四处求贤，yb就成了最早一批加入dong lab的员工，拥有了至关重要的平台。

　　yb想做cross link，最初周围反应不算积极。这是真正的重大创新。他的技术方案是把两个肽段粘在一起送进质谱。单肽运算量尚且很大，两个肽段的计算规模又变成了N*N，这自然涉及到大规模数据处理，于是国内唯一拥有自主蛋白质搜索引擎的pFind组就成了他的合作伙伴。具体负责pFind cross link版的程序员是宇宙超级无敌代码美少女emily。

　　然后就是死磕，死磕，死磕……这个BLOG的大部分读者大概对技术细节不感兴趣，内幕很可怕，不细说。要想看整体，可以读yb的论文；想了解并行计算负载均衡调度有关的部分，可以看我的论文和专利。

　　这事做了很多年。yb孩子出生那几个月，还每天在实验室里熬夜。pFind组也付出了艰辛努力。发一篇影响因子超过20的顶级国际期刊，经过各国领军的同行评审并同意发表，哪有那么容易。投稿被拒不止一次。试验数据不断补充，最后增加到存储和传输都成了问题（中国没有亚马逊在美国的数据迁移物流服务，把一整卡车的硬盘安全送到另外一个州，且保证数据不损坏）。

　　这事做了很多年。我和yb逐渐成了好朋友。我们两个年龄差不多，经历也很像，都曾经是实验室里打杂的二等员工，最后作出一些让旁人跌碎眼镜的成果。苦闷的时候，在一起喝酒。他说，有勇气的理想主义者不多。

　　这事做了很多年。做到最后，emily写完所有代码，把所有能想到的东西都整理成文档，把自己曾经遇到过的坑都仔细说给接手人之后，就到上海当大摩金融女去了。最后的最后，因为pFind团队放弃创业，我也跳槽到阿里云来搞ODPS了。走前做的最后一次超级计算机上的大规模数据试验，就包括pFind cross link版的测试，确保几百核CPU的机器上加速效率依然超过80%（嗯，我那个负载均衡算法目前依然是世界第一，大大领先于美国同行）。

　　我走的时候，好多人给我打很长的电话，yb也是其中之一。

　　留下来把事彻底干完的yb，再见面气场肯定占优势。这个世界最棒的特点就是，能长久持续的幸福感都与物欲无关。我得抓紧时间让yb请吃饭。这家伙快去美国了，学术生涯的第一篇论文，起点真tmd高。

交流多，创新就多

1 Reply

　　转产品经理之后，能广泛接触整条业务链。好玩的事很多。

　　例如旁听售前售后的同学打电话，体会如何控制情绪和语言，如何倾听。当她们成功地让一个犹豫不决的访问者下单时，我就忍不住欢呼起来。

　　再例如与运营推广的同学合作，理解如何调动资源，策划活动。当她们分析抽样目标的追踪数据，挖掘出被忽略的事实时，我恨不得顶礼膜拜。

　　当然，还是最擅长和技术团队打交道。满怀敬佩地看他们把一个巨大的航母造出来。在大家连续开会12小时筋疲力尽之后，给他们讲讲我以前陷入绝境时的这个故事。

　　此前的职业生涯，我从事生物信息这种交叉学科的应用软件开发。这是一件幸运的事。大多数程序员没机会和生物学家一起杀老鼠做实验（最早记录的BLOG是这一篇和这一篇，后面还有很多了）。程序员喜欢演绎，而生物学家则擅长归纳（与此相关的笑话）。同时，词汇表或者说隐喻，是跨领域交流时必须注意的重要问题。

　　从这段经历体会到，与不同领域的人进行交流，可能是最快的创新方式（最早是dmq教授向我明确描述出这个道理的）。有段TED视频也是在说这个道理。大多数惊为天人的创新，其实是一点点借鉴完善出来的。早期的汽车方向控制器的产品形式，试过马车的缰绳、自行车的横把、飞机的拉杆，最后终于发现轮船的舵轮是最合适的模式。

腾讯的DNA搜索引擎

生物数据处理和分布式并行计算

6 Replies

　　写一点我对生物信息云计算的粗浅认识。首先，所谓云计算是一个商业模式的概念，其内涵里Saas占很大比重，网络服务代替软件产品。另一方面，技术角度的个人观点，一个Web服务的后台涉及到了大规模分布式并行的基础设施，才有资格被称为“云计算”（当然，这一定义有争议）。这篇Blog先写技术观点，后面再加关于用户和服务的讨论。

　　技术上，大规模分布式并行计算被分为计算密集型和数据密集型两类。

　　很多物理、地质和气象等领域的科学计算都是典型的计算密集型问题，CPU是瓶颈，涉及到外存I/O量相对不高。对这类问题的解决思路就是传统的“数据找CPU”。具体一点说，目前编程实现的工业标准是MPI，利用MPI提供的Master/Slave模式启动和调度集群上各个节点上的进程，数据传输共享常利用NFS，底层可以用硬件手段提高数据I/O性能。像Fold@home这一类志愿计算项目，往往本质上也是计算密集型的，当然软件架构有所不同。

　　而Web领域的计算问题，例如搜索引擎的信息检索，主要是数据密集型问题（或者也称为IO密集型问题），这种情况下，CPU不再稀缺，海量数据的内外存交换的性能成了的焦点。对此MapReduce模式给出了很有效的解决思路，也就是所谓“CPU找数据”。具体来说，Hadoop是目前最热门的主流框架，先对查询对象进行索引，通过分布式文件系统备份到集群各处，再调度相对轻量的进程，分阶段执行查找和归并操作。

　　那么有没有这样的需求：输入输出的数据很海量，其处理过程的算法复杂性又很高，很占CPU。有的，例如现代天文学需要对成T甚至成P的哈勃望远镜图片进行搜索过滤……面对这一类的问题，MapReduce模型就不一定适用，其瓶颈出现在海量数据的传输性能上（Web搜索模型里，尽管是数据密集型应用，但被检索的关键词和输出结果是相对很小的，而在很多科学应用里，往集群提交的待查询本身就是海量数据）。Secter/Sphere在其论文和技术报告里总结，它对Hadoop有明显性能优势的原因之一，就是专门开发的底层传输协议UDT比后者使用的通用TCP/IP要高效。

　　对Hadoop这个特定产品来说，由于它是Java实现的，相对于C/C++有性能劣势，这个短板对CPU耗费型的应用来说很要命（这也是Secter/Sphere快的另一个原因）。有很多解决方案，例如Yahoo!开发了MPI on Hadoop，用MPI具体负责干活，Hadoop包裹在上层负责宏观调度和容错；而百度实现了Hadoop C++ Extension，把Hadoop里面的关键瓶颈部件都换成了C++的；前不久刚刚发布的Hadoop下一个版本的Roadmap里，也宣布要进行彻底重构，重点解决性能问题。

　　生物信息领域，无论是基因测序还是质谱鉴定蛋白，产生出来的数据量巨大，其处理运算又吃CPU。对现有的分布式计算模型是个挑战。其实分布式计算领域，从来都是应用拖着技术走的。例如是物理学家发明了集群运算，是信息检索工业逼出了MapReduce模式。所以，生物领域的挑战也许可以反过来给计算领域一个发展的机会。

joyfire 王乐珩地雷

有事多Google，没事少上网

Tag Archives: 生物信息

推荐hchi的这篇回忆

GeneDock招收生物信息实习生

健康大数据创业团队诚邀您的加入

谈谈ODPS商业化（五）：华大基因在ODPS上做的试验

这一期《程序员》杂志……

华大基因收购Complete Genomics

yb和emily的论文发表了

交流多，创新就多

腾讯的DNA搜索引擎

生物数据处理和分布式并行计算