Tag Archives: 哪吒

zf的pParse论文接近发表了

　　早上zf把Editor in Chief的来信抄送给组里，他的pParse论文接近发表了。我抢到第一个re邮件，表示祝贺。这篇论文的内容和zf这个人一样，踏实厚重。六年磨一剑，不容易。对手是红得发紫的MaxQuant又有什么了不起，在文中的几个数据集中，pParse效果高出10%。恭喜恭喜！

　　“哪吒”系统里已经集成了pParse，前两天我刚刚在集群平台上实现了它的异步并行。它将和pFind、pBuild、pCluster、pMatch、pXtract软件一起成为哪吒三头六臂里的重武器。

　　这消息来得太及时了，今天对hchi哥开玩笑说，看到zf的论文发表，我可以去死了。还是那句话：“joyfire的意思，如果zf愿意加入他的团队，他就有胆子去月球。”

　　这两天开车上下班路上，都在听孙燕姿的《是时候》的CD。的确是时候了。

哪吒和太空镜子

Leave a reply

　　上月底哪吒第一次对合作伙伴提供在线服务。开始和hchi哥、lyz美女折腾pFind@MapReduce。

　　以前写过思路，pFind原本是一个计算密集型的应用，面对擅长IO密集型的MapReduce模型，不只是把MPI版本代码移植过去那么简单，要从根子上重新设计整个框架。刚好hchi哥经过近半年的思考和实验，在算法上有了突破性的点子，我们一拍即合，开始动手干。

　　如果成功，pFind 3.0的架构就与信息检索领域的那些典型应用（例如Google搜索引擎）很像了，把目前的第一代蛋白质鉴定搜索引擎落下半里地。当然，刚开始做，有不少算法和工程问题需要啃。等待我们的论文和专利吧。

　　晚上陪老婆在小区里散步，看天上的星星发呆。然后对老婆说：人类可以在太空里建立一面巨大的镜子，用来挡住北京城的阳光，天气就没那么热了；反过来，能挡住就能反射，可以向阴冷地区或夜间的灾区送光；再邪恶一点的话，能反射就能制造成透镜，当成武器，瞬间聚焦地面某个区域，甚至融化南北极……老婆没有照例说我是邪恶的理工科，而说，你该写本科幻小说赚钱。这念头并不新奇，估计已经有人写了，甚至申请专利也说不定（用Google搜索全球专利，会发现很多有趣的奇思妙想）。回来一搜，果然刘慈欣已经写了这篇《中国太阳》。

　　由这个链接，发现42qu已经上线新版本了。

　　说到刘慈欣的小说，还有一件事值得敲出来。小学二年级的外甥壮壮很聪明好学，喜欢读书。前两天发现他在读《三体》的第三本。刚开始觉得，对小朋友来说这是不是太黑暗绝望了。转念一想，别太低估他们的心智了。倒是发现周围有些成人很少深度思考，只顾着纠结眼巴前那点儿事，应该找机会跳出来读读超脱点的文字。

　　想上来列书单，最近忙，原以为不会看太多新书。没想到一整理有十几本，还是太久没写BLOG。懒，明天再说。

流水帐.2011.6.11

“哪咤”系统第一个milestone明天组内alpha发布

6 Replies

　　最近半个月和zf双人编程，全力开发“哪吒”系统。

　　和Web搜索引擎不同，pFind有自己的专业特点，最大特点就是要求尽可能高的查全率和查准率：平常Web搜索，大多数用户很少翻看三、五页以外更多的搜索结果。而对我们这个领域而言，质谱仪器原本就有很高的精度，数据集里那些含量稀少信号相对较弱的蛋白质，却往往正是科学家和医生们最重视的研究对象。pFind引擎有几十个参数，虽然很多默认推荐值经受过数百万数据的考验，但是在具体数据集上总会有优化的空间。

　　也就是说，花费上万块钱成本得到珍贵实验数据，不能只拿pFind引擎常规参数“一搜了之”，需要进一步大量深入分析。例如过滤和校准质谱数据，极端情况下通过数据发现前端实验过程和仪器维护中的问题，回去重做实验；再如进行初次试搜之后，对鉴定结果进行统计分析，优化参数，改变选项，再进行迭代搜索；又如，利用多种搜索引擎交叉验证，甚至是多种方法结果的相互对比验证（例如常规的基因翻译蛋白序列库搜索引擎，最近新兴的谱库搜索，以及探索性最高的de novo算法）……

　　每年iPRG国际评测中，使用同样搜索引擎的人，有排名前十位的，也有结果完全不像样子的。蛋白质组学的领军人物发表论文说：“赛车好，还需要王牌赛车手。生物组学领域的瓶颈目前是数据分析，而分析成果又很依赖优秀分析人员的经验”。像rxsun,yfu,zf,hchi,cliu等虾米，都是江湖上知名的质谱数据分析专家了。

　　深入解析依赖人工工作大大降低了效率。随着pFind的进展，我们与越来越多国内外生物学家建立了合作关系。然而每月收到成T的数据，每周要提交的分析报告，海量的工作量，把所有人都压垮了，不得不放弃很多送上门来的合作机会和经费。

　　数据解析的全流程自动化，国际上都在全力探索。例如现在红得发紫的Maxquant就做得不错。pFind组有不错的基础，由于有牛人yfu和他那一帮超常的算法研究天才在，我们在谱图搜索、de novo、修饰发现等等方面也有自己的独特之处。至于工程能力，生物实验室那些非计算机专业作者用C#写的桌面级别代码，要进一步拓展到大规模集群，甚至通过云计算提供在线服务，还差得很远。而这方面是计算所的长项。在超级计算机并行加速方面，我去年论文成果数据的可拓展性达到了320核，不谦虚地吹嘘，超过了全世界竞争对手目前为止公开报告数据效果一个量级，其实我已经做到了1000核，马上要做2000核。

　　通过pFind云提供对外服务，这始终是我的梦想。为此努力了5年，今年终于开始着手了。也许，它能成为未来生物医药数据处理的基础构件之一。

　　要建立实用的平台，就需要把方方面面的工作集成起来，解决大量很有挑战性的难题，例如单从并行加速这一个技术需求来看，不再像加速pFind搜索引擎这一具体环节这么简单，需要考虑整个流程各个环节的不同特点：在海量数据吞吐的地方，如全基因组翻译和索引，用得到MapReduce这一套；而打分鉴定这种95%CPU的工作，需要精心设计MPI类的程序；另一些特别的算法，例如de novo里面的动态规划，也许得考虑GPU加速……其实，加速还是最好做的事。

　　加班很累，一写BLOG又兴奋了，也是最近密集开发，没空上网，想写的东西比较多吧。明天带“哪咤”的雏形出来见人，这个平台尝试把组里pFind、pBuild、pCluster、pMatch、pXtract、pParse、pNovo等等主力软件串联起来，无人值守的对海量数据进行尽可能全面的挖掘，我们希望听取各位的意见。

joyfire 王乐珩地雷

有事多Google，没事少上网

Tag Archives: 哪吒

zf的pParse论文接近发表了

哪吒和太空镜子

流水帐.2011.6.11

“哪咤”系统第一个milestone明天组内alpha发布