Tag Archives: cross link

yb和emily的论文发表了

  刚收到DMQ教授的邮件,yb和emily的学术论文An Integrated Workflow for Identification of Cross-linked Peptides from Complex Samples很快就要发表在Nature Methods上了。

  强烈祝贺。然后写点回忆,这是一个很长的故事。

  第一次见到yb是搬着服务器去BPRC测试的时候。他还是实验室里的一个低薪临时工,干着不擅长不喜欢的边缘工作。但jw和lz评价说:“yb这家伙的坚定理想就是献身科学”。后来DMQ教授回国,四处求贤,yb就成了最早一批加入dong lab的员工,拥有了至关重要的平台。

  yb想做cross link,最初周围反应不算积极。这是真正的重大创新。他的技术方案是把两个肽段粘在一起送进质谱。单肽运算量尚且很大,两个肽段的计算规模又变成了N*N,这自然涉及到大规模数据处理,于是国内唯一拥有自主蛋白质搜索引擎的pFind组就成了他的合作伙伴。具体负责pFind cross link版的程序员是宇宙超级无敌代码美少女emily。

  然后就是死磕,死磕,死磕……这个BLOG的大部分读者大概对技术细节不感兴趣,内幕很可怕,不细说。要想看整体,可以读yb的论文;想了解并行计算负载均衡调度有关的部分,可以看我的论文和专利

  这事做了很多年。yb孩子出生那几个月,还每天在实验室里熬夜。pFind组也付出了艰辛努力。发一篇影响因子超过20的顶级国际期刊,经过各国领军的同行评审并同意发表,哪有那么容易。投稿被拒不止一次。试验数据不断补充,最后增加到存储和传输都成了问题(中国没有亚马逊在美国的数据迁移物流服务,把一整卡车的硬盘安全送到另外一个州,且保证数据不损坏)。

  这事做了很多年。我和yb逐渐成了好朋友。我们两个年龄差不多,经历也很像,都曾经是实验室里打杂的二等员工,最后作出一些让旁人跌碎眼镜的成果。苦闷的时候,在一起喝酒。他说,有勇气的理想主义者不多。

  这事做了很多年。做到最后,emily写完所有代码,把所有能想到的东西都整理成文档,把自己曾经遇到过的坑都仔细说给接手人之后,就到上海当大摩金融女去了。最后的最后,因为pFind团队放弃创业,我也跳槽到阿里云来搞ODPS了。走前做的最后一次超级计算机上的大规模数据试验,就包括pFind cross link版的测试,确保几百核CPU的机器上加速效率依然超过80%(嗯,我那个负载均衡算法目前依然是世界第一,大大领先于美国同行)。

  我走的时候,好多人给我打很长的电话,yb也是其中之一。

  留下来把事彻底干完的yb,再见面气场肯定占优势。这个世界最棒的特点就是,能长久持续的幸福感都与物欲无关。我得抓紧时间让yb请吃饭。这家伙快去美国了,学术生涯的第一篇论文,起点真tmd高。