Tag Archives: 基因

23andMe被黑了

怎么看待互联网公司进入医疗健康业？

　　先看个好玩的。下面播放的这个名为Big genomic data on Google Cloud Platform的视频（在youtube上，得翻墙）简单介绍了如何通过Google的基础设施，例如Genomics API、BigQuery和 GAE Mapreduce ，在云端处理基因大数据。那个分析基因的BigQuery SQL代码例子你看懂了吗？

　　知因上有个问题：昨日爆出腾讯7000万美元投资中国最大的医疗健康互联网公司丁香园；雅虎将于今年10月正式启动个体基因数据库“HealthData Lab”项目；不久前，Google X部门启动 “基线”研究项目绘制健康人体图谱。你怎么看待互联网公司进入医疗健康业？他们在未来的医疗健康行业会起到怎样的作用？随着互联网公司的涉足，未来医疗健康行业又将如何发展呢？（原文链接）我做了如下回答：

　　算是和这个问题有点的关系的人。此前有好多年在科研机构里搞生物信息学。然后跳到互联网公司里做云计算。现在正准备跳出来创业，搞健康大数据和云计算。

　　感觉最大的区别是人的思维方式。互联网是竞争和变化非常激烈的行业，追求高效、专注、开放，有很多应对资本和人才流动的游戏规则。而生物制药这边，套路还有点传统。

　　举个例子，互联网出来的人创业，首先考虑的是怎么把自己做薄，把能放弃的都外包出去，专注于自己的最大优势。而传统健康领域出身的创业团队搞某件事，例如基因测序，思考方式似乎仍然比较宏大，停留在再造另外1个或者0.5个华大基因：测序仪，服务器，算法研发，数据分析，网络营销，地面推广，健康诊断，个性化医疗……

　　再举个例子，我没看到基因测序行业特别担心一线技术人员流失和跳槽，至少他们没有采取很明显的激励措施：提高工资、赠送期权、鼓励和参与员工进行内外部再次创业等等。相关专业的毕业生，例如生物信息，平均士气并不高，找工作的时候对未来普遍很迷茫。

　　未来会怎样？我不知道，至少目前阶段，互联网出身的人还处于劣势，他们不了解医药健康行业的特点和细节，缺少体系内的人脉和资源。但这些鲶鱼至少激发了整个行业的思考。让我们一起加油，看看两三年以后会变成什么样？

　　顺便发点小广告，我们在招人：http://knowgene.com/article/136

Google投资基因组数据服务

2 Replies

　　这两天生化和生物信息领域的人很兴奋，因为Google对DNAnexus的投资。

　　DNAnexus刚刚在A轮融资中获得1500万美元投资，投资方包括Google Ventures。除了资金，Google还将利用自身基础设施，如Google Cloud Storage，对DNAnexus提供技术支持。美国政府因为预算吃紧即将关闭NCBI，所以DNAnexus的DNA数据云服务今后有望成为生物科研的基础。

　　回顾一下:

　　十年前人类基因组计划完成，多国科学家利用了几亿美元，花费数年才完成了一个人的DNA测序；

　　六年前，中国第一个商用案例，某位匿名亿万富翁花了一千万RMB给自己测序；

　　四年前，Google联合创始人之一在自己妻子创立的23andMe公司内接受基因测序，被预测出帕金森症高危，因此大笔捐助研究这种疾病的基金会，此时23andMe已推出了免费测序服务（当然你要接受自己的DNA隐私被出售，以及随之而来的各种医疗服务的恐惧营销）;

　　而到了今年夏天，在55BBS孕宝亲子版上，北京的孕妇们开始热烈讨论购买华大基因的DNA测序服务以进行唐氏儿筛查。1500元的推广价当然还高于成本，但按照目前基因测序技术的发展速度（大大超过了摩尔定律），其成本很快就会降到普通人可以接受的范围，成为普通医院的标配。

　　随着测序技术的进步，如何对接近10T的基因深度测序原始数据进行分析就成了问题。总不能让每个病人都拿着10T的硬盘到医院的集群上现算吧。云服务是合乎逻辑的方式。所以生物信息领域的人，等待Google等互联网巨头的进入，已经有好几年了。

　　一直在期待领域Killer Application的出现，也一直在讨论“云计算+生物”的技术细节，让暴风雨来得更猛烈些吧。

腾讯的DNA搜索引擎

Leave a reply

　　腾讯研究院刚刚推出了实验性的DNA搜索引擎，去年他们发表过一篇学术论文How to build a DNA search engine like Google?，还申请了与此相关的专利。当时引起了国内外很多科技媒体的关注。

　　关于这个DNA搜索引擎，扬子江@42qu刚刚发表的这篇文章里面有更详细的介绍。

　　先简单介绍一下这篇论文的思路。现代搜索引擎的一个常规预处理环节，是对文档进行分词然后创建倒排索引。中英文在分词这个环节上有很大差别，英文单词天然被空格隔开，中文句子里的词汇都是连在一起的，所以更加难以划分，例如“南京市长江大桥”，分词算法一不小心就切成了这样：南京/市长/江/大桥。因此最常见的处理，是开一个移动窗口，不断扫描连续几个字形成的子串，创建倒排索引，当然最终只会保留频率较高的串。考虑到基因串搜索的特点与此很类似，所以现有中文搜索引擎的技术可以应用到生物基因搜索里去。

　　如果对分词算法更感兴趣的话，可以参考《算法导论》里“动态规划”那一章的计算字符串最小距离的那个例题，书里还特别提示了一句：这个模型被应用于基因比对领域。进一步，还可以Google更专业经典的生物信息算法，例如BLAST（我记得IBM开发社区有过一篇BLAST算法的介绍写得很好）。

　　文本信息检索和基因分析两个领域之间有很多故事。

　　在本领域的超大规模序列匹配算法和软件尚未成熟之前，早期的生物信息学者就曾经试图借助过Google协助自己的研究。他们的办法是把基因数据放到Web上，然后吸引Google的爬虫过来抓取，最后再用Google搜索自己想要的序列片段。不过由于人类基因字符串长达三十万，Google对匹配模式的长度有上限，所以这种方法的结果并不是特别精确。按说号称更懂中文的百度应该能派上用场……悲剧的是……百度限制更多……嗯……我记得……那时候搜索内容不能超过32个汉字（或64个字母）。

　　当BLAST等经典基因比对算法出现以后，又反过来被信息检索领域应用，在某些特殊的场合（例如版本比对、谣言分析、抄袭判断等领域）发挥了重大作用，很多人大概都听说过分析“赶快把这封邮件抄送给十个朋友，否则……”这类蠕虫email内容几十年演变过程的那篇著名论文。

　　稍微了解领域知识的生物信息人员都会明白，腾讯的这个引擎还只是一个演示性的玩具。真正常规的工业级基因深度测序数据处理，是要对多达几T的测序数据进行拼接和匹配，然后再搜索基因库，寻找突变点。不过俺个人看法是，如果有一天网络巨头真把目光投向生物信息领域了，这个行业就该重新洗牌了。目前看，还是产业规模和利润兴趣的问题，而具体的技术能力并不会形成太大的壁垒，就算有，在高薪挖墙角的人才战面前也是浮云。

　　说到这里，LinkedIn上面的Bio-IT World: Bioinformatics小组里刚有过一个有趣的讨论：So why hasn’t the Bioinformatics industry rocketed to success? （为什么生物信息产业始终不温不火，没有出现爆炸性发展？）。

joyfire 王乐珩地雷

有事多Google，没事少上网

Tag Archives: 基因

23andMe被黑了

怎么看待互联网公司进入医疗健康业？

Google投资基因组数据服务

腾讯的DNA搜索引擎