Category Archives: 打工日记

简报,pFind两大牛人:yf和rxsun

  fy大侠的文章“DeltAMT: a statistical algorithm for fast detection of protein modifications from LC-MS/MS data”在MCP上发表了,这是三年里的第二篇。而且相对第一篇,这一篇完全偏重算法。各界人士纷纷发来贺电。已经身在360,不准用QQ的第二作者袖子也特意写了一篇BLOG

  总在讨论战略、文化、策略神马的,其实都是浮云。能像fy这样,攻必果、战必克,有计划必有执行,有执行必有结果,就是所谓的Good to Great了。一年多,三次Revision,不管过程怎么痛苦,需要拼的时候能砸锅卖铁点灯熬油,需要忍的时候能卧薪尝胆持之以恒,最终咬牙扛过来。

  不断创新是pFind的唯一活路。虽然有各种不同的声音,我个人强烈认为,新一代蛋白鉴定搜索引擎的最大特点之一将会是修饰参数的智能推荐功能。

  rxsun刚通过投票成为iPRG member。此前Mann的论文里说,好的赛车需要好的赛车手。iPRG 2011比赛的题目是ETD,从结果来看,竞争很激烈。

欢迎贡献自己PC空余时间,帮助CAS@home计划

  办公室里的大多数PC,70%时间并没有用于工作。CPU空转不仅仅浪费能源,对于每过18个月就折旧一半的电脑设备来说,也是一种巨大硬件投资的浪费。另一方面,很多科学家苦于没有足够的计算资源。如果能利用用户离开工位的电脑空闲帮助科学家做计算,就能一举两得。

  最早实现这一设想的是伯克利大学“在家寻找外星人计划”(SETI@home)。只要下载一个屏保程序并安装,当你一段时间不碰自己的PC,进入屏保模式,程序就会自动从网站上下载天文无线讯号进行数据分析,破译可能存在的智能生物信息。如果主人回来,屏幕保护程序会中断并保存,不影响你继续自己的正常工作。

  这一模式在生物制药领域最成功的案例是斯坦福大学的Fold@home项目, 到2010年全球加入该计划的志愿计算机的CPU个数已经超过35万个,其中Windows用户人数最多,PS3游戏机用户占第二,Mac OS用户占第三,Linux用户第四……此外还有大量高端GPU用户。成千上万普通用户的PC组成了虚拟的超级计算机,其计算能力丝毫不比那些每小时耗电 费用达到几十万元的超级计算机差。利用志愿者贡献出来的计算能力,科学家们已经发现了十几种治疗癌症和其他疑难杂症的可能药物靶点,发表了上百篇相关论 文。

  CAS@home是中国自己的志愿计算 项目,是在CERN(欧洲粒子物理研究所)研究员、中国科学院外国特聘研究员Francois Grey的帮助下于2010年开始启动的。目前运行在CAS@home上的蛋白质结构预测应用软件是由中科院计算所生物信息组研究员卜东波等人开发的,依 据蛋白质结构联配时出现的short-cut现象提出的一种高效的结构预测算法。

  目前参与CAS@home的志愿者超过2000。欢迎大家贡献自己PC空余时间,帮助科学家的研究,为战胜疾病提供力量。

pFind引擎的第四代索引模块

  因为CNCP2010,同时也有些私事,最近很忙。live spaces又拆迁。所以BLOG节奏受影响。这周末陆续敲点流水帐。

  首先要祝贺zhch的后缀数组论文经过一年历练总算被BMC Bioinformatics接收。相关专利也提交了。(在这之前,sun老师的ETD论文也发表了,BOSS H昨天说,今年一年组里发了6、7篇,快等于此前几年的总和了)。

  pFind搜索引擎的索引技术一直不断传承和推进:dq老大最先奠定基础,推出IndexToolkit开源项目并在Bioinformatics发表Application notes;之后ly哥凭借不懈努力吃透了倒排技术,重构了索引模块,发表论文申请专利;接下来zhch凭借ACM金牌的强悍算法功底继续前进,先是将倒排索引的数据容量上限提高了几个数量级,然后又另辟蹊径引入后缀数组技术,颠覆了前人的工作。

  年底推出pFind 2.6之后,我们将着手把zhc的模块从develop分支移到release分支。这是pFind的第四代索引了。当然这只是刚开头,它必须通过全面严厉的测试,才能证明自己有资格替代老版本索引,在工业级产品中担当主力。

即将到来的pFind Studio 2.4.2版,还有CNCP2010大会

  还在单位加班,在等一个漫长的测试进程结束,登录上来敲点BLOG。

  之前说过,下半年的一个重点就是提高pFind Studio的产品质量。七月份的2.4.1版还是不够令人满意,最近除了忙知识产权的工作以外,就是逼迫几个主力继续不断测试,修改BUG,提高用户易用性。BugFree里的统计曲线不断创造新高,几位辛苦了。pFind Studio 2.4.2版比计划拖延了将近一个月,昨天提交了pFind Studio 2.4.2 RC3供组里验收,希望这次不会被打回来重写作业。当然,这次我比较有信心能通过投票。

  越是到这个阶段,越觉得熊节的这篇《把事情做完》有道理。

  这个版本发布,刚好可以赶上计算所主办的“首届中国计算蛋白质组学研讨会”,这次会议邀请了众多国内最出色的团队来作报告。为了保证质量和学术纯粹性,拒绝了很多公司的商业赞助。到目前为止,报名的踊跃程度大大超出了我们的想象,不得不更换原定的会场。提醒大家,尽管为了促进交流不收任何注册费,还是建议想参加的朋友提交参会回执,如果到时候不得不限制人数的话,不至于受影响。会前培训的名额已经快接近场地上限,大家要抓紧了。

  请期待最新一版的pFind Studio 2.4.2,希望在11月的研讨会现场见到各位老朋友。

专利、商标和比比西T恤

  在跟知识产权较劲。申请了软件著作权,又在搞发明专利,接下来还有商标。碰到些新鲜概念。

  申请软件著作权比较容易,准备好用户手册和代码就可以了,但文牍格式要求最繁琐。

  申请专利更有趣。这两天通过和律师的反复沟通,接触了专利布局方面的皮毛:有专利争端时,对方会竭力寻找专利的纰漏以使其失效。因此,最好把创新点拆解成互相掩护的专利群,即使其中某一个被废掉,其他“桩子”仍然能保证“篱笆”不容易被绕过。这一招在对付拥有顶级律师的大公司时尤其重要。专利的文档要求逻辑性和严谨性,程序员在思维方式上不会有太多障碍,关键是学会法律文件撰写的文字技术手段。

  初次涉及PCT(Patent Cooperation Treaty,《专利合作条约》),还在了解中。专利是地域性的:若只申请中国专利,而不到欧美日地区申请,专利一旦公开,尽管在我们这里受保护,其他市场上别人统统有权免费使用。

  正在调研商标申请,手续不难,关键是设计LOGO。大公司有自雇的平面设计师,或聘请设计公司,成本不低。请教高人,指点我通过网络发包给“维客”,看来性价比不错。创业团队相对大机构,成本就是这样节约下来的。

  关于商标,刚好和最近一则新闻有关:腾讯刚刚收购了康生创想。在收购前几天后者刚申请到“社区动力;Discuz!”商标(而“Discuz!”商标已经被京东方抢注)。戴志康说是2006年红衫风投时要求他们申请商标,腾讯收购前刚好申请下来了,纯属巧合。换个角度看,科技创业,知识产权保护措施应该早点考虑。

  最后掺点八卦,上周在淘宝买了“比比西斗二龙”T恤。刚看到比比西BLOG上说他要结婚,秀出幸福的戒指。莫非真靠卖衣服攒老婆本?

  看游戏风云三年。2008年比比西原来的公司破产,团队剩下7个人转投上文广,仍然扛着G联赛;私人方面,B叔差点结婚又分手,后来又遇到交通事故,打着石膏主持节目……如今频道渐有起色,承办韩国Star league的2010总决赛,个人也找到归宿。不容易。坚持理想的家伙值得祝福。

Sector&Sphere

  大约一个月前读了Sector and Sphere: The Design and Implementation of a High Performance Data Cloud这篇论文。后来在组会上做了文献讲评。一直想BLOG分享,今天抽空补上。

  Sector/Sphere可以看作与GFS/MapReduceHadoop竞争的另一种云计算的基础设施。相对于Hadoop,它的特点是提供了更好的性能和安全性。如果云计算集群跨越不同地理位置的多个计算中心,Sector/Sphere的优势就能得到最大体现。从Terasort结果来看,同等条件下,其性能比Hadoop高出不少

  之所以能有这么好的性能效果,除了Sector/Sphere是用C++实现(而Hadoop是用Java)的天然优势以外,数据传输使用UDT协议(而不是常规的TCP)是一个独特之处。关于UDT协议的技术细节可以参考这篇论文,这项技术获得了2006、2008和2009三年的High Performance Computing, Networking, Storage, and Analysis会议的Bandwidth Challenge Winner

  因为有了UDT的独特创新,Sector/Sphere在数据吞吐方面就有了很强的核心竞争力。论文里提到:典型的Web应用,例如搜索引擎查询一个关 键词,尽管计算过程涉及很大规模的数据I/O查询,但是算法的输入和输出的消息尺寸本身是相对较小的。而对于典型的科学计算任务,输入输出数据本身往往也 很庞大,例如作者自己从事的天文学项目SDSS中,要先输入几十T的天文望远镜照片,再从中分析寻找褐矮星。这就要求面向这一类问题的云计算底层机制拥有更高的数据传输性能。

  在基于串联质谱的蛋白质鉴定中,海量数据的传输同样是瓶颈。这也是pFind集群版将要涉及云技术时,我对Sector/Sphere产生兴趣的主要原因。

  再列一些八卦信息。Sector/Sphere的第一作者Yunhong Gu拥有中国大陆的教育背景。而他所在的Oregon State University’s Open Source Lab被Network World杂志评选为美国10个最酷的网络实验室之一,入选原因就是研发出了Sector/Sphere。

pFind新版、生日

  好久没写BLOG,在忙软件的新版。昨天pFind Studio 2.4.1版发布了。欢迎下载使用。

  五月份发布2.4版时,因为要赶丽江会议的deadline,产品推出有些仓促。这次新版重点针对用户的反馈意见进行完善,尤其是pBuild有了不少改进。当然还要继续努力,下半年主要精力就放在完善pFind Studio产品上。

  除了产品开发,还和yf一起组织专利和软件著作权的申请。俺自己,也提交了pFind集群的算法发明专利以及软件著作权的申请资料。

  虽然紧张,工作与生活之间的平衡还算掌握得不错。帮忙照顾亲戚的小孩子有点头大,还好还好。昨天实在顾不上,我们只好把小朋友寄放到更远的亲戚家里去, 幸亏小姑娘是自来熟。下午pFind Studio安装包测试完成,各种知识产权申请和硬件设备采购都赶上了deadline,下班回家(遭遇地铁故障,煎熬)吃到了生日蛋糕。到晚上,听说亲 戚手术顺利,松口气。

断网断电话一段时间,还有pFind的千核并行进展

  从明天开始,我在一段时间内无法上网,也无法接听电话。

  顺便说说pFind Studio进展。最近hf和xs在全力完善pBuild 2.0。稍后我们会向全球用户群发邮件,邀请大家试用最新版本。另外,于上个月在深腾7000超级计算机上刚完成的实验中,pFind千核并行取得了满意的加速比。瓶子哥正在拼搏(站好最后一班岗),在2048核处理器规模下试验更大规模的数据。

  俺们算初步解决了多修饰海量谱图的高效并行加速问题。用户可以选定15种之多的修饰,或者把母离子误差开到500Da之大,pFind百核集群都能在常规时间内完成搜索鉴定。而现有的公开报道中,世界上其他竞争对手超过32核加速效率就会变差。大言不惭地说,俺们在并行加速方面获得领先。

  但仅考虑海量谱图是不够的,如果面对超常的巨型蛋白质序列库(例如直接搜索人类基因组数据,或这两年很热的用恐龙化石中提取的蛋白质搜索全生物库的需求),主流搜素引擎目前还都无法做到有效并行。仔细分析可知,这种情况下搜索引擎的运算特点就从以计算密集型为主,转为计算密集型和I/O密集型兼有,接近Web搜索引擎。也就是说,Google MapReduce那一套有用武之地了。

pFind集群的论文正式发表

  俺和瓶子的pFind集群论文:An efficient parallelization of phosphorylated peptide and protein identification已在英文期刊RAPID COMMUNICATIONS IN MASS SPECTROMETRY (2.772)正式发表。

  论文主要论述了我们在并行加速方面的研究。实验表明:pFind搜索引擎对一个含有100个Raw文件的磷酸化公共数据集进行鉴定,在100个处理器核 上,加速比为83.7;对另一个更大的、共含有1,366,471张质谱的磷酸化数据进行鉴定,在320个核上,加速比为258.9,加速效率达到 80.9%。

  目前pFind并行版已经投入一线分析实用。俺们正在千核条件下继续研发。