Tag Archives: DNA

怎么看待互联网公司进入医疗健康业?

  先看个好玩的。下面播放的这个名为Big genomic data on Google Cloud Platform的视频(在youtube上,得翻墙)简单介绍了如何通过Google的基础设施,例如Genomics API、BigQuery和 GAE Mapreduce ,在云端处理基因大数据。那个分析基因的BigQuery SQL代码例子你看懂了吗?

  知因上有个问题:昨日爆出腾讯7000万美元投资中国最大的医疗健康互联网公司丁香园;雅虎将于今年10月正式启动个体基因数据库“HealthData Lab”项目;不久前,Google X部门启动 “基线”研究项目绘制健康人体图谱。你怎么看待互联网公司进入医疗健康业?他们在未来的医疗健康行业会起到怎样的作用?随着互联网公司的涉足,未来医疗健康行业又将如何发展呢?(原文链接)我做了如下回答:

  算是和这个问题有点的关系的人。此前有好多年在科研机构里搞生物信息学。然后跳到互联网公司里做云计算。现在正准备跳出来创业,搞健康大数据和云计算。

  感觉最大的区别是人的思维方式。互联网是竞争和变化非常激烈的行业,追求高效、专注、开放,有很多应对资本和人才流动的游戏规则。而生物制药这边,套路还有点传统。

  举个例子,互联网出来的人创业,首先考虑的是怎么把自己做薄,把能放弃的都外包出去,专注于自己的最大优势。而传统健康领域出身的创业团队搞某件事,例如基因测序,思考方式似乎仍然比较宏大,停留在再造另外1个或者0.5个华大基因:测序仪,服务器,算法研发,数据分析,网络营销,地面推广,健康诊断,个性化医疗……

  再举个例子,我没看到基因测序行业特别担心一线技术人员流失和跳槽,至少他们没有采取很明显的激励措施:提高工资、赠送期权、鼓励和参与员工进行内外部再次创业等等。相关专业的毕业生,例如生物信息,平均士气并不高,找工作的时候对未来普遍很迷茫。

  未来会怎样?我不知道,至少目前阶段,互联网出身的人还处于劣势,他们不了解医药健康行业的特点和细节,缺少体系内的人脉和资源。但这些鲶鱼至少激发了整个行业的思考。让我们一起加油,看看两三年以后会变成什么样?

  顺便发点小广告,我们在招人:http://knowgene.com/article/136

谈谈ODPS商业化(五):华大基因在ODPS上做的试验

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……

  由于我正在着手做生物信息云计算方面的工作,很多信息不方便透露,这篇会很短。有兴趣的同学请找我线下交流。不过在阿里云上做基因测序创新的同学们不必担心,阿里云没有野心、也没有能力成为一个提供完整基因测序计算服务的公司。相反,ODPS等等产品一定是做底层通用平台该做的事,帮助生物信息应用上云更方便,和创业者们一起成长。

  回来开始说华大基因在ODPS做的试验。以前写过一篇博客提到过这件事。

  将基因测序仪输出的上亿条DNA片段拼接为基因组长序列,这个过程可以看作在一个超大规模的拓扑图上寻找欧拉路径。人类基因组包含30亿个碱基,目前基因测序一般会做30倍到50倍的扩增。利用典型的单机组装软件至少需要256GB的内存才可能完成基因组装,时间长达数天。

  ODPS Graph Task是面向迭代的拓扑图算法处理框架,提供类似Google Pregel的BSP并行编程模型。正适合支持一些超大规模拓扑图算法。

  去年10月5K项目测试期间,华大基因的生物信息专家基于ODPS Graph Task开发了一套基因拼接算法,在E.coli(大肠杆菌)、Bombus(熊蜂)和Yanhuang(人类)三个物种的测试集上均取得了非常高的加速比。

  此前一直关注Google在生物信息领域重兵投入。自从Google Genomics API推出,形势就更加明确了。另外一边,据称亚马逊AWS美国有1/4的客户来源于生物制药行业。生物信息显然是云计算的重要业务增长方向。随着全球第一张基因测序临床牌照的颁发,已经可以看到国内大量围绕基因测序的创业项目起来了。目前ODPS团队正在和多个生物信息领域的合作伙伴一起努力,把各种生物信息经典算法和数据处理流程搬到云上来。如果你正在做这方面的产品、创业,欢迎和我联系,阿里云会尽可能提供关键帮助。

  另外我刚刚在知乎和知因同时发起了问题:生物信息还需要云计算提供什么样的功能?生物信息应用上云,你碰到了哪些问题?现有的阿里云、亚马逊AWS云计算基础设施需要做哪些改进,为什么?目前你用的最多的云产品和Web Service API是哪些? 等待你的真知灼见:
  知乎:http://www.zhihu.com/question/24719395
  知因:http://www.knowgene.com/question/1639

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……

积木和DNA

  下面这张是我和女儿一起搭的积木。搭出来的东西很高,为了让小孩子在地板上拖着走却不散架,我又加了很多支撑结构。据说风格像DNA螺旋。

jimu

积木

  说起DNA螺旋。最近在手机上安装了网易云阅读和豆瓣阅读的APP。并且在豆瓣阅读器购买了科幻小说《爱的算法》。每一篇小说本身也的确很好看。刘宇昆对机器学习和基因等领域理解得很深。《艺术大师》自动计算生产电影的那个模型,很像我们现在用来做搜索广告的逻辑回归算法。而《结绳记事》里面利用少数人类天才的灵感训练算法模型,从而预测蛋白质折叠这故事的现实版发生在2011年,我的BLOG也提过。而修改基因让农作物种子不能繁衍下一代,逼迫农民继续购买自己公司的种子,这不是科幻,而是现存技术,迫于压力孟山都公司宣布永久性放弃使用这项技术。

jimu

  豆瓣阅读做的不错,上下班地铁阅读比纸质书方便,价格也更便宜。看样子,以后买纸质书的数量会减少了。可是,以前在BLOG里说过,我的人生梦想就是有一间光线很好的、充满书架、有一个躺椅的大书房(参考《银英传·螺旋迷宫》里杨威利的退休理想)。若把两面墙的大书架换成一个电子屏幕,感觉有点怪。

Google投资基因组数据服务

  这两天生化和生物信息领域的人很兴奋,因为Google对DNAnexus的投资。

  DNAnexus刚刚在A轮融资中获得1500万美元投资,投资方包括Google Ventures。除了资金,Google还将利用自身基础设施,如Google Cloud Storage,对DNAnexus提供技术支持。美国政府因为预算吃紧即将关闭NCBI,所以DNAnexus的DNA数据云服务今后有望成为生物科研的基础。

  回顾一下:

  十年前人类基因组计划完成,多国科学家利用了几亿美元,花费数年才完成了一个人的DNA测序;

  六年前,中国第一个商用案例,某位匿名亿万富翁花了一千万RMB给自己测序;

  四年前,Google联合创始人之一在自己妻子创立的23andMe公司内接受基因测序,被预测出帕金森症高危,因此大笔捐助研究这种疾病的基金会,此时23andMe已推出了免费测序服务(当然你要接受自己的DNA隐私被出售,以及随之而来的各种医疗服务的恐惧营销);

  而到了今年夏天,在55BBS孕宝亲子版上,北京的孕妇们开始热烈讨论购买华大基因的DNA测序服务以进行唐氏儿筛查。1500元的推广价当然还高于成本,但按照目前基因测序技术的发展速度(大大超过了摩尔定律),其成本很快就会降到普通人可以接受的范围,成为普通医院的标配。

每个基因组(人)的测序成本 - 来自NHGRI

  随着测序技术的进步,如何对接近10T的基因深度测序原始数据进行分析就成了问题。总不能让每个病人都拿着10T的硬盘到医院的集群上现算吧。云服务是合乎逻辑的方式。所以生物信息领域的人,等待Google等互联网巨头的进入,已经有好几年了。

  一直在期待领域Killer Application的出现,也一直在讨论“云计算+生物”的技术细节,让暴风雨来得更猛烈些吧。

腾讯的DNA搜索引擎

  腾讯研究院刚刚推出了实验性的DNA搜索引擎,去年他们发表过一篇学术论文How to build a DNA search engine like Google?,还申请了与此相关的专利。当时引起了国内外很多科技媒体的关注

  关于这个DNA搜索引擎,扬子江@42qu刚刚发表的这篇文章里面有更详细的介绍。

  先简单介绍一下这篇论文的思路。现代搜索引擎的一个常规预处理环节,是对文档进行分词然后创建倒排索引。中英文在分词这个环节上有很大差别,英文单词天然被空格隔开,中文句子里的词汇都是连在一起的,所以更加难以划分,例如“南京市长江大桥”,分词算法一不小心就切成了这样:南京/市长/江/大桥。因此最常见的处理,是开一个移动窗口,不断扫描连续几个字形成的子串,创建倒排索引,当然最终只会保留频率较高的串。考虑到基因串搜索的特点与此很类似,所以现有中文搜索引擎的技术可以应用到生物基因搜索里去。

  如果对分词算法更感兴趣的话,可以参考《算法导论》里“动态规划”那一章的计算字符串最小距离的那个例题,书里还特别提示了一句:这个模型被应用于基因比对领域。进一步,还可以Google更专业经典的生物信息算法,例如BLAST(我记得IBM开发社区有过一篇BLAST算法的介绍写得很好)。

算法导论

  文本信息检索和基因分析两个领域之间有很多故事。

  在本领域的超大规模序列匹配算法和软件尚未成熟之前,早期的生物信息学者就曾经试图借助过Google协助自己的研究。他们的办法是把基因数据放到Web上,然后吸引Google的爬虫过来抓取,最后再用Google搜索自己想要的序列片段。不过由于人类基因字符串长达三十万,Google对匹配模式的长度有上限,所以这种方法的结果并不是特别精确。按说号称更懂中文的百度应该能派上用场……悲剧的是……百度限制更多……嗯……我记得……那时候搜索内容不能超过32个汉字(或64个字母)。

  当BLAST等经典基因比对算法出现以后,又反过来被信息检索领域应用,在某些特殊的场合(例如版本比对、谣言分析、抄袭判断等领域)发挥了重大作用,很多人大概都听说过分析“赶快把这封邮件抄送给十个朋友,否则……”这类蠕虫email内容几十年演变过程的那篇著名论文。

  稍微了解领域知识的生物信息人员都会明白,腾讯的这个引擎还只是一个演示性的玩具。真正常规的工业级基因深度测序数据处理,是要对多达几T的测序数据进行拼接和匹配,然后再搜索基因库,寻找突变点。不过俺个人看法是,如果有一天网络巨头真把目光投向生物信息领域了,这个行业就该重新洗牌了。目前看,还是产业规模和利润兴趣的问题,而具体的技术能力并不会形成太大的壁垒,就算有,在高薪挖墙角的人才战面前也是浮云。

  说到这里,LinkedIn上面的Bio-IT World: Bioinformatics小组里刚有过一个有趣的讨论:So why hasn’t the Bioinformatics industry rocketed to success? (为什么生物信息产业始终不温不火,没有出现爆炸性发展?)