Monthly Archives: October 2011

瓦良格航母和小木虫网站

  昨天飞到大连出差,晚上12点才入住香洲大饭店的20层楼。今天早起一拉窗帘,哇噻,瓦良格航母就在窗户前方的港口里啊。

  在科学计算讨论会上发现小木虫学术科研论坛做得风水水起,很有前途。和科学松鼠会类似,完全民间志愿性质的公益网站,往往比受到国家经费支持的事业机构做得更好。

  “你怎么看刚刚去世的乔布斯先生?”我问自由广场上“占领华尔街”运动示威的年轻人。“我负担不起一个iPhone,但我觉得这家伙跟我们是一伙的”。源自:《乔布斯的无用之用》

  越来越没耐心,忍不了空洞乏味。听到“布局”、“运作”、“战略”、“平台”这种词太多,就会引起生理反应,逃去厕所。

zf的pParse论文接近发表了

  早上zf把Editor in Chief的来信抄送给组里,他的pParse论文接近发表了。我抢到第一个re邮件,表示祝贺。这篇论文的内容和zf这个人一样,踏实厚重。六年磨一剑,不容易。对手是红得发紫的MaxQuant又有什么了不起,在文中的几个数据集中,pParse效果高出10%。恭喜恭喜!

  “哪吒”系统里已经集成了pParse,前两天我刚刚在集群平台上实现了它的异步并行。它将和pFind、pBuild、pCluster、pMatch、pXtract软件一起成为哪吒三头六臂里的重武器。

  这消息来得太及时了,今天对hchi哥开玩笑说,看到zf的论文发表,我可以去死了。还是那句话:“joyfire的意思,如果zf愿意加入他的团队,他就有胆子去月球。”

  这两天开车上下班路上,都在听孙燕姿的《是时候》的CD。的确是时候了。

是时候

Dennis Ritchie去世,还有一段个人记忆

  首先,C语言之父Dennis Ritchie去世,默哀。大家可以回顾一下这篇2000年的新闻稿,记者专访了C、C++和Java三种语言的创始人。C++11标准终于发布了,ISO C11新版也会马上发布。C标准委员会和C++标准委员会关系很好,有很多成员在两边兼任,所以相互协同越来越好。只可惜,自从SUN被收购,眼看着Java要被Oracle生生折腾死了。

  OK,技术写完了。

  前两天收到好朋友的消息,说我的BLOG上长篇大论的技术review越来越多,鲜活的个人体验越来越少。朋友提醒我,不要被点击量和搜索排名绑架,不要忘记那些关注你个人的好朋友们。说得对,BLOG之所以不同于其他媒体,在于其背后是个活人,有喜怒哀乐和碎碎念。订阅者若是只关心宏大严肃的话题,就去看《南方周末》了。

  下面是一段无关技术的记忆,分享给关心我的好友,也分享给上岁数以后的自己。

  战争,窗户外面轰炸机正在扔炸弹,火红的爆炸和灰滚滚的尘土,小区里的楼开始摇晃歪倒,多米诺骨牌,一栋、两栋……终于轮到我这一栋楼了,卧倒,地板逐渐倾斜,周围充满了邻居们的叫喊……

  女儿的抽泣把我从梦里拽出来。睁开眼睛,小婴儿正在吭叽,努力试图侧过身子,离妈妈近一点。妻子还在睡梦里,一只手揽着孩子,胳膊肘顶着我的肩膀,哦,是怕我梦里翻身会不小心压到孩子。

  女儿不懈挣扎,用脚踢被子,发出更大声音的抗议……妻子很快醒了,侧过身给孩子喂奶。孩子急躁地叫起来,妈妈温柔而疲惫地安慰,然后就是小家伙咕噜咕噜吃奶的声音。

  给女儿盖上被子,问“换尿布吗?”,妻子说“不用,你睡吧”。

  卫生间里的冷光夜灯透过来,描出母女两个的轮廓来,像大理石雕塑。翻身,裹好被子,深呼吸,安详温暖的气氛,刚才噩梦里的紧张纠结已经很远很淡了。困倦,接着睡……

  补:教主说,闭上眼,且听风吟;这一刻,世界与我无关。

Google投资基因组数据服务

  这两天生化和生物信息领域的人很兴奋,因为Google对DNAnexus的投资。

  DNAnexus刚刚在A轮融资中获得1500万美元投资,投资方包括Google Ventures。除了资金,Google还将利用自身基础设施,如Google Cloud Storage,对DNAnexus提供技术支持。美国政府因为预算吃紧即将关闭NCBI,所以DNAnexus的DNA数据云服务今后有望成为生物科研的基础。

  回顾一下:

  十年前人类基因组计划完成,多国科学家利用了几亿美元,花费数年才完成了一个人的DNA测序;

  六年前,中国第一个商用案例,某位匿名亿万富翁花了一千万RMB给自己测序;

  四年前,Google联合创始人之一在自己妻子创立的23andMe公司内接受基因测序,被预测出帕金森症高危,因此大笔捐助研究这种疾病的基金会,此时23andMe已推出了免费测序服务(当然你要接受自己的DNA隐私被出售,以及随之而来的各种医疗服务的恐惧营销);

  而到了今年夏天,在55BBS孕宝亲子版上,北京的孕妇们开始热烈讨论购买华大基因的DNA测序服务以进行唐氏儿筛查。1500元的推广价当然还高于成本,但按照目前基因测序技术的发展速度(大大超过了摩尔定律),其成本很快就会降到普通人可以接受的范围,成为普通医院的标配。

每个基因组(人)的测序成本 - 来自NHGRI

  随着测序技术的进步,如何对接近10T的基因深度测序原始数据进行分析就成了问题。总不能让每个病人都拿着10T的硬盘到医院的集群上现算吧。云服务是合乎逻辑的方式。所以生物信息领域的人,等待Google等互联网巨头的进入,已经有好几年了。

  一直在期待领域Killer Application的出现,也一直在讨论“云计算+生物”的技术细节,让暴风雨来得更猛烈些吧。

腾讯的DNA搜索引擎

  腾讯研究院刚刚推出了实验性的DNA搜索引擎,去年他们发表过一篇学术论文How to build a DNA search engine like Google?,还申请了与此相关的专利。当时引起了国内外很多科技媒体的关注

  关于这个DNA搜索引擎,扬子江@42qu刚刚发表的这篇文章里面有更详细的介绍。

  先简单介绍一下这篇论文的思路。现代搜索引擎的一个常规预处理环节,是对文档进行分词然后创建倒排索引。中英文在分词这个环节上有很大差别,英文单词天然被空格隔开,中文句子里的词汇都是连在一起的,所以更加难以划分,例如“南京市长江大桥”,分词算法一不小心就切成了这样:南京/市长/江/大桥。因此最常见的处理,是开一个移动窗口,不断扫描连续几个字形成的子串,创建倒排索引,当然最终只会保留频率较高的串。考虑到基因串搜索的特点与此很类似,所以现有中文搜索引擎的技术可以应用到生物基因搜索里去。

  如果对分词算法更感兴趣的话,可以参考《算法导论》里“动态规划”那一章的计算字符串最小距离的那个例题,书里还特别提示了一句:这个模型被应用于基因比对领域。进一步,还可以Google更专业经典的生物信息算法,例如BLAST(我记得IBM开发社区有过一篇BLAST算法的介绍写得很好)。

算法导论

  文本信息检索和基因分析两个领域之间有很多故事。

  在本领域的超大规模序列匹配算法和软件尚未成熟之前,早期的生物信息学者就曾经试图借助过Google协助自己的研究。他们的办法是把基因数据放到Web上,然后吸引Google的爬虫过来抓取,最后再用Google搜索自己想要的序列片段。不过由于人类基因字符串长达三十万,Google对匹配模式的长度有上限,所以这种方法的结果并不是特别精确。按说号称更懂中文的百度应该能派上用场……悲剧的是……百度限制更多……嗯……我记得……那时候搜索内容不能超过32个汉字(或64个字母)。

  当BLAST等经典基因比对算法出现以后,又反过来被信息检索领域应用,在某些特殊的场合(例如版本比对、谣言分析、抄袭判断等领域)发挥了重大作用,很多人大概都听说过分析“赶快把这封邮件抄送给十个朋友,否则……”这类蠕虫email内容几十年演变过程的那篇著名论文。

  稍微了解领域知识的生物信息人员都会明白,腾讯的这个引擎还只是一个演示性的玩具。真正常规的工业级基因深度测序数据处理,是要对多达几T的测序数据进行拼接和匹配,然后再搜索基因库,寻找突变点。不过俺个人看法是,如果有一天网络巨头真把目光投向生物信息领域了,这个行业就该重新洗牌了。目前看,还是产业规模和利润兴趣的问题,而具体的技术能力并不会形成太大的壁垒,就算有,在高薪挖墙角的人才战面前也是浮云。

  说到这里,LinkedIn上面的Bio-IT World: Bioinformatics小组里刚有过一个有趣的讨论:So why hasn’t the Bioinformatics industry rocketed to success? (为什么生物信息产业始终不温不火,没有出现爆炸性发展?)