Tag Archives: 生物信息

欢迎贡献自己PC空余时间,帮助CAS@home计划

  办公室里的大多数PC,70%时间并没有用于工作。CPU空转不仅仅浪费能源,对于每过18个月就折旧一半的电脑设备来说,也是一种巨大硬件投资的浪费。另一方面,很多科学家苦于没有足够的计算资源。如果能利用用户离开工位的电脑空闲帮助科学家做计算,就能一举两得。

  最早实现这一设想的是伯克利大学“在家寻找外星人计划”(SETI@home)。只要下载一个屏保程序并安装,当你一段时间不碰自己的PC,进入屏保模式,程序就会自动从网站上下载天文无线讯号进行数据分析,破译可能存在的智能生物信息。如果主人回来,屏幕保护程序会中断并保存,不影响你继续自己的正常工作。

  这一模式在生物制药领域最成功的案例是斯坦福大学的Fold@home项目, 到2010年全球加入该计划的志愿计算机的CPU个数已经超过35万个,其中Windows用户人数最多,PS3游戏机用户占第二,Mac OS用户占第三,Linux用户第四……此外还有大量高端GPU用户。成千上万普通用户的PC组成了虚拟的超级计算机,其计算能力丝毫不比那些每小时耗电 费用达到几十万元的超级计算机差。利用志愿者贡献出来的计算能力,科学家们已经发现了十几种治疗癌症和其他疑难杂症的可能药物靶点,发表了上百篇相关论 文。

  CAS@home是中国自己的志愿计算 项目,是在CERN(欧洲粒子物理研究所)研究员、中国科学院外国特聘研究员Francois Grey的帮助下于2010年开始启动的。目前运行在CAS@home上的蛋白质结构预测应用软件是由中科院计算所生物信息组研究员卜东波等人开发的,依 据蛋白质结构联配时出现的short-cut现象提出的一种高效的结构预测算法。

  目前参与CAS@home的志愿者超过2000。欢迎大家贡献自己PC空余时间,帮助科学家的研究,为战胜疾病提供力量。

生物信息和云

  云计算在生物领域面临几个问题:首先是计算密集型和数据密集型的平衡,其次是授权管理和安全问题,第三是T级别甚至P级别海量数据的实时传输和分发。最近读了几篇相关论文,分享一下。

  Clare Sansom刚发表在Nature Biotechnology上的Up in a cloud?这 篇文章分析了美国市场上生物云计算的问题和趋势。云计算包含多种商业模式,目前亚马逊式的“公用云”租用已逐渐普及,租用计算资源的用户中生物领域占到了 一定比例。相比传统的超级集群租用,这种形式优势更便宜更灵活,能做为对外服务的基础。但安全性和授权管理还是制药公司和生物研究单位的顾虑之一。

  与此相关,Eric E. Schadt等人在Nature Reviews Genetics刚发表了一篇题为Computational solutions to large-scale data management and analysis的综述,更深入地对生物领域的云技术进行了汇总,介绍了超级计算机、网格计算、云计算和异构并行(GPU)技术在生物计算中的成功案例,并对比了其不同的应用特点。

  同时,Joel T Dudley和Atul J Butte在Nature Biotechnology发表了一篇文章,题为In silico research in the era of cloud computing, 主要从另外一个角度展开讨论。由于生物学研究越来越依赖大规模计算,同行间重复别人的工作面临着很多软件和计算问题。而可重复性 (reproducible)是现代学术体系的基石。作者希望利用虚拟机技术提供同行评议时的可重复性,同时又能保护必要的知识产权和技术机密。

  另外几篇,Michael C Schatz发表在Nature Biotechnology上的Cloud computing and the DNA data race,以及Monya Baker发表在Nature Methods上的Next-generation sequencing: adjusting to data overload,都主要涉及新的测序技术导致的数据剧烈膨胀。

  还看了Sector/Sphere作者在SC09(The International Conference for High Performance Computing Networking, Storage, and Analysis)上的论文Lessons Learned From a Year’s Worth of Benchmarks of Large Data Clouds。如果看过Sector/Sphere最早的论文, 再读这篇就比较轻松。这篇文章对Hadoop和Sector进行了更详尽的对比。相对源于Web搜索引擎的Hadoop,源于科学计算领域(在海量天体照 片中搜索可能存在的褐矮星)Sector先天具有一些特点:例如C++比Java的性能优势;例如可跨数据中心运行的安全机制;再例如UDT协议(UDP-based Data Transfer Protocol)比TCP协议在海量数据传输分发方面的优势……

  Sector/Sphere作者刚刚创业,建立了verycloud.com公司,提供云计算领域的咨询和定制开发。

  一直希望建立pFind“专有云”,向Google一样提供行业数据处理的在线服务引擎。因此,除了领域算法,还需要掌握一整套软硬件维护和运营能力。这很难,但如果成功,则不可替代性很强。不仅仅可以避免传统软件的桌面维护,避开盗版,让反向工程模仿成本大大增加。

  游戏产业放弃单机版转向网络云技术是一次成功的突围。生物信息能重复这个故事吗?

pFind引擎的第四代索引模块

  因为CNCP2010,同时也有些私事,最近很忙。live spaces又拆迁。所以BLOG节奏受影响。这周末陆续敲点流水帐。

  首先要祝贺zhch的后缀数组论文经过一年历练总算被BMC Bioinformatics接收。相关专利也提交了。(在这之前,sun老师的ETD论文也发表了,BOSS H昨天说,今年一年组里发了6、7篇,快等于此前几年的总和了)。

  pFind搜索引擎的索引技术一直不断传承和推进:dq老大最先奠定基础,推出IndexToolkit开源项目并在Bioinformatics发表Application notes;之后ly哥凭借不懈努力吃透了倒排技术,重构了索引模块,发表论文申请专利;接下来zhch凭借ACM金牌的强悍算法功底继续前进,先是将倒排索引的数据容量上限提高了几个数量级,然后又另辟蹊径引入后缀数组技术,颠覆了前人的工作。

  年底推出pFind 2.6之后,我们将着手把zhc的模块从develop分支移到release分支。这是pFind的第四代索引了。当然这只是刚开头,它必须通过全面严厉的测试,才能证明自己有资格替代老版本索引,在工业级产品中担当主力。

pFind新版、生日

  好久没写BLOG,在忙软件的新版。昨天pFind Studio 2.4.1版发布了。欢迎下载使用。

  五月份发布2.4版时,因为要赶丽江会议的deadline,产品推出有些仓促。这次新版重点针对用户的反馈意见进行完善,尤其是pBuild有了不少改进。当然还要继续努力,下半年主要精力就放在完善pFind Studio产品上。

  除了产品开发,还和yf一起组织专利和软件著作权的申请。俺自己,也提交了pFind集群的算法发明专利以及软件著作权的申请资料。

  虽然紧张,工作与生活之间的平衡还算掌握得不错。帮忙照顾亲戚的小孩子有点头大,还好还好。昨天实在顾不上,我们只好把小朋友寄放到更远的亲戚家里去, 幸亏小姑娘是自来熟。下午pFind Studio安装包测试完成,各种知识产权申请和硬件设备采购都赶上了deadline,下班回家(遭遇地铁故障,煎熬)吃到了生日蛋糕。到晚上,听说亲 戚手术顺利,松口气。

pFind集群的论文正式发表

  俺和瓶子的pFind集群论文:An efficient parallelization of phosphorylated peptide and protein identification已在英文期刊RAPID COMMUNICATIONS IN MASS SPECTROMETRY (2.772)正式发表。

  论文主要论述了我们在并行加速方面的研究。实验表明:pFind搜索引擎对一个含有100个Raw文件的磷酸化公共数据集进行鉴定,在100个处理器核 上,加速比为83.7;对另一个更大的、共含有1,366,471张质谱的磷酸化数据进行鉴定,在320个核上,加速比为258.9,加速效率达到 80.9%。

  目前pFind并行版已经投入一线分析实用。俺们正在千核条件下继续研发。

有什么办法可以让一只老鼠变得抑郁?

  豆瓣生物信息小组里,有人贴出求救贴:“实验室需要抑郁的老鼠,有什么办法可以让一只老鼠迅速变得抑郁起来?”

  各位生化达人赶快帮忙想办法。

  据说总不见阳光,褪黑激素分泌过少,就会抑郁。电视剧里嫩白淑女都是惆怅的,网上的宅男宅女也或多或少有点儿心理疾病。所以,把老鼠关在伸手不见五指的地方,是不是就抑郁了。可老鼠洞本就伸手不见五指……

  个人经验是,饿肚子时经常情绪低落。不妨试试饿老鼠几顿?嗯,可万一实验结果会出现偏向性,开发出来的药物对胖人不管用怎么办?(提醒各位美女:珍爱生命,远离减肥,真抑郁就麻烦大发了)

  要不索性双管齐下,不给吃东西,还关黑屋子?可怜的小白鼠。

  严肃点,这儿科研呢。记得《经济观察报》上有篇文章写过,美国药品市场上,抗抑郁药占有非常大的比例,所以该领域的研发工作,是药物巨头企业的重中之重。

  嗯,假期第一天,睡到下午15:00才起来,重度宅,罪过罪过;而且现在还没吃晚饭。为防止抑郁,马上就去厨房,我打算包点饺子给自己吃。

  希望各位小白鼠清明节都有好吃的可吃,有太阳可晒

生物信息和创业

  都知道我患有轻度创业妄想症,痴迷收集各种白手起家的离奇故事,狂热鼓动周围所有合适不合适的朋友下海。可俺手头的工作叫生物信息,传说中最阳春白雪,让热血青年丧失注意力的一种罕见菌类,哦不,我是说一种罕见学科。

  所以俺总在饭碗和理想之间寻找联系。

  以前就写过BLOG,猜测生物信息领域未来最可能的杀手应用。里面提到的23andMe其实是Google创始人的新婚妻子创建的。(Google两个创始人几乎同时结婚,娶的都是搞生物信息的博士)。今天在科学松鼠会看到一篇以玩笑口吻撰写的创业计划。笑过以后提醒你,并没有看起来那么荒谬,目前硅谷VC资助的生物信息创业公司,基本也就是这些路数。

  关于扫描基因取得个人倾向,05年想到时还很兴奋。其实已是老生常谈。电影GATTACA里性感美女谈恋爱的标准模式,就是拔根头,然后留下联系方式,“如果对我感兴趣,打电话”。你可以拿着头发去医院里算命:如果有孩子,得心脏病的概率是多少。

  BTW:伦理问题不是工程师的范畴,让哲学、社会学和法律专业的兄弟姐妹去头疼吧。最坏情况下,出现基因专利和昂贵的定制基因服务,就像刘慈欣《赡养人类》里的一号文明一样,富人和穷人逐渐演变成不同物种。

杀手级应用在哪里?

  今天被这篇癌症诊断的论文吸引,看了一晚上。

  做科研的,尤其是一直在象牙塔里打转,为研究而研究的领域,最希望有朝一日能大量投入日常实用。以前提过,生物信息学如何摆脱阳春白雪呢,也得有靠近老百姓的应用。

  目前踅摸出来的比较热的点子,大概都是类似通过个人的基因来算祖先、算性格、算儿女的模式,比如刚刚获得Google投资的这家23andMe。这种娱乐性质的算命应用制造了不少科技八卦新闻,比如美国一个大学教授弄清了自己是成吉思汗的直系后代,身上的基因最早聚集于外高加索,又在几百年前移民英国,最终飘洋过海传播到新大陆;再比如中国学者拿来考古,搞清辽国后裔现位于云南,汉朝与匈奴战争中的“罗马军团”是阿富汗雇佣兵;非洲奇特的黄种人部落来源于郑和宝船上某些风流的水手;再好事一点的,跑去研究日本某反华政治家的老底,据说他的基因多半源于六百年前南宋灭亡时东渡的中国难民……

  这当然不够,要像IT一样成为决定性产业,就得在国计民生重大问题上帮上大忙。开头提到的论文,综述质谱技术在癌症临床诊断的应用前景。这项实际应用虽然还在“婴儿期”,但分量很重,又被大家看好,“原来这就是传说中的给你三颗痔,让你变成孙悟空的那个人”。就像论文中提到的,现有癌症诊断手段假阳性和假阴性相当高。我就有不止一个朋友曾验出癌症,吓得半死,再去复查,原来不是。这是假阳性,还好,也就是浪费钱浪费感情而已,假阴性就麻烦了,错过治疗癌症的最佳时期,到了晚期只好束手无策。

BigTable和生物信息

  以前提到过,GFS分布并行、高度容错、海量I/O、“重”插入查询“轻”删除、面向廉价PC集群的特点,很适合生物信息方面的应用

  最近构建在GFS基础上的BigTable受到关注。简单地说,BigTable提供稀疏表形式的数据存取服务,除了拥有GFS的原有特点,更适合存放半结构化的数据。所谓半结构化数据,和关系数据 库的表一样是二维的,有字段(列)和记录(行)的概念,但每个字段不限制长度,适于存储HTML和RSS(XML)。而生物信息应用中,肽、质谱、酶、修 饰等都是由一组或多组不定长字符串表达的半结构化数据。

  Google进军生物信息领域,看似隔行,其实门槛很低,因为原有核心竞争力在此领域同样有效。