Monthly Archives: March 2011

“哪咤”系统第一个milestone明天组内alpha发布

  最近半个月和zf双人编程,全力开发“哪吒”系统

  和Web搜索引擎不同,pFind有自己的专业特点,最大特点就是要求尽可能高的查全率和查准率:平常Web搜索,大多数用户很少翻看三、五页以外更多的搜索结果。而对我们这个领域而言,质谱仪器原本就有很高的精度,数据集里那些含量稀少信号相对较弱的蛋白质,却往往正是科学家和医生们最重视的研究对象。pFind引擎有几十个参数,虽然很多默认推荐值经受过数百万数据的考验,但是在具体数据集上总会有优化的空间。

  也就是说,花费上万块钱成本得到珍贵实验数据,不能只拿pFind引擎常规参数“一搜了之”,需要进一步大量深入分析。例如过滤和校准质谱数据,极端情况下通过数据发现前端实验过程和仪器维护中的问题,回去重做实验;再如进行初次试搜之后,对鉴定结果进行统计分析,优化参数,改变选项,再进行迭代搜索;又如,利用多种搜索引擎交叉验证,甚至是多种方法结果的相互对比验证(例如常规的基因翻译蛋白序列库搜索引擎,最近新兴的谱库搜索,以及探索性最高的de novo算法)……

  每年iPRG国际评测中,使用同样搜索引擎的人,有排名前十位的,也有结果完全不像样子的。蛋白质组学的领军人物发表论文说:“赛车好,还需要王牌赛车手。生物组学领域的瓶颈目前是数据分析,而分析成果又很依赖优秀分析人员的经验”。像rxsun,yfu,zf,hchi,cliu等虾米,都是江湖上知名的质谱数据分析专家了。

  深入解析依赖人工工作大大降低了效率。随着pFind的进展,我们与越来越多国内外生物学家建立了合作关系。然而每月收到成T的数据,每周要提交的分析报告,海量的工作量,把所有人都压垮了,不得不放弃很多送上门来的合作机会和经费。

  数据解析的全流程自动化,国际上都在全力探索。例如现在红得发紫的Maxquant就做得不错。pFind组有不错的基础,由于有牛人yfu和他那一帮超常的算法研究天才在,我们在谱图搜索、de novo、修饰发现等等方面也有自己的独特之处。至于工程能力,生物实验室那些非计算机专业作者用C#写的桌面级别代码,要进一步拓展到大规模集群,甚至通过云计算提供在线服务,还差得很远。而这方面是计算所的长项。在超级计算机并行加速方面,我去年论文成果数据的可拓展性达到了320核,不谦虚地吹嘘,超过了全世界竞争对手目前为止公开报告数据效果一个量级,其实我已经做到了1000核,马上要做2000核。

  通过pFind云提供对外服务,这始终是我的梦想。为此努力了5年,今年终于开始着手了。也许,它能成为未来生物医药数据处理的基础构件之一。

  要建立实用的平台,就需要把方方面面的工作集成起来,解决大量很有挑战性的难题,例如单从并行加速这一个技术需求来看,不再像加速pFind搜索引擎这一具体环节这么简单,需要考虑整个流程各个环节的不同特点:在海量数据吞吐的地方,如全基因组翻译和索引,用得到MapReduce这一套;而打分鉴定这种95%CPU的工作,需要精心设计MPI类的程序;另一些特别的算法,例如de novo里面的动态规划,也许得考虑GPU加速……其实,加速还是最好做的事。

  加班很累,一写BLOG又兴奋了,也是最近密集开发,没空上网,想写的东西比较多吧。明天带“哪咤”的雏形出来见人,这个平台尝试把组里pFind、pBuild、pCluster、pMatch、pXtract、pParse、pNovo等等主力软件串联起来,无人值守的对海量数据进行尽可能全面的挖掘,我们希望听取各位的意见。

列书单.2011.3.26

  最近新买的书包括李海鹏的《佛祖在一号线》,赵瑜的《小闲事:恋爱中的鲁迅》,江平的自传《沉浮与枯荣》,哈耶克的《通往奴役之路》,Jessica Livingston的《Founders at Work中文版》,Jason Fried和David Heinemeier Hansson的《Rework中文版》,还有安妮宝贝主编的杂志《大方》,谢芸的《修炼》

  安妮宝贝的杂志,是今天刚刚在单向街买到的,里面有对村上春树三天两夜的长访谈,不少内容涉及《1Q84》。

  这里面有几本是老婆买的。像江平这一本,拥有他们那一代人特有的沉重记忆:战争年代加入革命,赴苏留学,政治运动中新婚一周的妻子离婚改嫁,下放劳动时意外被火车压掉一条腿……这位中国法律界的泰斗之所以受到广泛的敬重,除了他是改革后的法律体系重建者之一,还因为自传里被删掉,我们看不到的那些文字:8 *9* 年,老校长拖着一条假腿拦在大学门口,面对热血沸腾的年轻人们,老泪纵横……江平那一年之后是主动辞职的,以前看过同时代另一著名高校的领导回忆录,通篇都是陈腐的官腔,还有一章专门介绍如果对付学生,对比之下,实在让人反感。

  Founders at work是热门书,大概因为Y Combinator训练营非常受关注。过了三十岁,开始有危机感,周围有不少同龄人无法清空头脑,越来越僵化。

  谢芸的书是Boss H以前借给我看过的,最近又看了一遍。职场的小说或回忆录,视野思路大多很狭窄,这一本算是还不错的。其实,关键无非就是按常识办事,不要被功利所惑,古语说:反常即是妖。



Android开发和暴雪故事

  最近满世界都是iPhone、Android和《疯狂的小鸟》。就连陪着老婆回娘家,遇到邻居美女来串门,听说我是程序员以后,居然都会被问:“你会Android开发吗,我正在找人……”

  私下里以为,这乌洋乌洋的激动者里99.9%从一开始就注定要失败。很多人并不真正理解这个领域,不知道最出色的技术领跑者拥有什么特质。手头的正事没做踏实,被别人挣大钱的传奇故事刺激一下,开始浮想联翩。我所知道的国内早期靠Apple手持设备挣到真金白银的那些市场嗅觉灵敏的狐狸们,07年就退出这个市场去搞汽车买卖和长期租赁的网站了。(这不,这个领域去年开始热起来,尤其是年底北京摇号限牌政策出台之后。好像联想的风投最近投了一笔)

  话说回来,智能手机时代的确刚开始,让我们对创业、对未来的可能性保持敬畏吧。推荐下面暴雪geek们的故事。

挤地铁、堵车和zf双人编程

  最近家里的网络有些故障,所以没怎么写BLOG。

  早上从家里到单位居然开了将近两小时,实在太堵了。沿路看到好多追尾、刮蹭的事故现场,交警叔叔真辛苦。

  09年以前,都是错开高峰坐地铁上下班,路上还能读小说。但被BOSS H骂,严令必须按时上下班,只好和别人一样7点出门,18点下班。地铁线路开通越多,感觉越像地狱。不止一次衣服被撕破,电脑背包带被拉断,背肌痉挛。去年10月的一天,不得不中途提前下车,找卫生间去吐,于是终于下了决心考照买车。刚买到,北京就摇号限牌了。和06年买房子一样,大家说我运气好,总能赶上趟。其实很多滋味只有自己知道。

每周限行那天,早上需要在天通苑地铁站入口的这个S形通道里煎熬40分钟

  

  这些天除了在超级计算机上调试新一版的pFind,就是和zf一起双人编程,构建一个平台,把组里pFind、pXtract、pMatch、pParse、pNovo、pBuild等等这些都整合起来。按照惯例,zf会给它起昵称,我想和zf商量叫“哪吒”,三头六臂,掌握很多种不同武器的样子。zf编程很老道,所以交流起来很放松。双人编程这事儿和很多合作一样,最关键要价值观一致,看到bad smell不肯妥协。同时越写越喜欢python,写出来的东西很干净。

  另外,老妈原单位一位同事的儿子突然猝死了,我记得比我小一点。上上周小曾跑pFind集群,周末加班没搞通,结果第二天就住院动手术了(人民纷纷血泪控诉我的压迫,这个,冤啊,真不是pFind集群折磨的……前几天和管理员一起安装Sector/Sphere的时候偷眼看了一下,他好像把$PATH环境设错了)。大家要注意身体。

中国Mozilla Drumbeat大会和志愿计算

  志愿计算是指利用公众空闲CPU时间进行科学计算的技术。以前在BLOG上号召大家参加中国科学院的CAS@home项目,运行在这个平台上的蛋白质结构预测算法是由我们计算所生物信息组卜东波老师等开发的。

  3月23日至25日,高能物理所、计算所与Mozilla联合举办中国Mozilla Drumbeat大会。其专家报告部分的主题就是志愿计算,邀请了包括David Anderson在内的众多牛人。David Anderson来自加州大学伯克利分校,是著名的寻找外星人计划SETI@home的负责人,目前最著名的志愿计算平台BOINC的创始者。

  而后还有两天的Hackfests(现场工作室),这部分比较有趣。将安排4-5名开发人员和2-3名科学家组成一个小组,你会在领域专家的指导下,为一组Hackfest挑战项目开发出原型代码。Hackfests招募正在进行,软件牛人们赶快来报名。当然,因为Hackfests的任务具有延续性,需要您尽量保证两天全程参与。将为志愿者提供免费的饮料和午餐,以及24日的晚宴。

列书单.2011.3.8

  春节前后买的书列一下。最近总被老婆抓去看电视,读书就少些。电视媒体真无聊啊,怪不得有科研显示长期坚持每天看电视超过3小时,智商就会永久性降低。看了几集湖南台的《宫》,上网在豆瓣上看到这么一段评论:“二阿哥,四阿哥和八阿哥都喜欢杨幂,因为他们分别是二的一次幂,二次幂,三次幂”。

  看了帕特里克.奥布莱恩的《怒海争锋之舰长与司令官》,翁贝托·埃科的《玫瑰的名字注》,Peter Seibel的《编程人生》(Coders at Work中文版),斯蒂格·拉森的《龙文身的女孩》,温伯格的《技术领导之路》。这几本大多都是一晚上就看完了。《怒海争锋》和《龙纹身的女孩》到现在已经看了三四遍了,尤其是《龙纹身的女孩》,打算去买三部曲的后两本,可惜作者英年早逝。当初《玫瑰的名字》读得很慢,因为有很多文化背景形成的障碍,但是《玫瑰的名字注》就顺畅多了,老母鸡回忆怎么把蛋生出来。

  Coders at Work等了好久总算出来了,其中最年轻的Brad Fitzpatrick的那一篇我最喜欢,里面回忆LiveJournal创业初是这样的:“我们两个11点起床,干到中午,穿着短裤看会儿电视,然后不间断地工作到早上三四点……另一个朋友住在市区,早上坐轻轨过来,滑滑板到我家,然后就坐在外面用Wi-Fi上网写程序,直到我们醒过来去给他开门,让他进来……”

  另外给我的小外甥买了一本《你不可不知的50个数学知识》,据说他非常喜欢。这一本是春节前收到的图灵出版书单里找到的。

简报,pFind两大牛人:yf和rxsun

  fy大侠的文章“DeltAMT: a statistical algorithm for fast detection of protein modifications from LC-MS/MS data”在MCP上发表了,这是三年里的第二篇。而且相对第一篇,这一篇完全偏重算法。各界人士纷纷发来贺电。已经身在360,不准用QQ的第二作者袖子也特意写了一篇BLOG

  总在讨论战略、文化、策略神马的,其实都是浮云。能像fy这样,攻必果、战必克,有计划必有执行,有执行必有结果,就是所谓的Good to Great了。一年多,三次Revision,不管过程怎么痛苦,需要拼的时候能砸锅卖铁点灯熬油,需要忍的时候能卧薪尝胆持之以恒,最终咬牙扛过来。

  不断创新是pFind的唯一活路。虽然有各种不同的声音,我个人强烈认为,新一代蛋白鉴定搜索引擎的最大特点之一将会是修饰参数的智能推荐功能。

  rxsun刚通过投票成为iPRG member。此前Mann的论文里说,好的赛车需要好的赛车手。iPRG 2011比赛的题目是ETD,从结果来看,竞争很激烈。