Category Archives: 打工日记

第一次现场测试

  下午email了这次的用户测试报告,任务算全搞定了。明天把服务器运回去。

  随着样品逐渐复杂,不断增加难度:先鉴定牛血清标准蛋白样品;接着是6种不同的哺乳动物标准蛋白的混合样品;然后开始测试实际实验样品,鉴定含有几十种人类细胞蛋白的质谱数据;第四天进入深水区,开始鉴定含有超过三百种蛋白的样品……

  pFind和竞争对手Mascot一起跑,请生物学家对结果进行分析对比,必要时打开原始谱图人工判断匹配的正确性。和商业化的产品比,我们显然还很粗糙。中间崩溃过一次,只好停下来找BUG;易用性和结果呈现受到批评。战战兢兢,但不管怎么说,生物学家对搜索结果本身比较满意,核心算法得到了承认。第一次现场实验,还算说得过去吧。

  记录两个小花絮:

  跑牛血清标准蛋白数据,用Human库做背景。搜出来的结果居然包括很多的人类蛋白,郁闷。得到解释说,这些大都是角蛋白(人的皮肤和头发),还有汗液里的抗菌成分,是从实验者身上或空气浮尘土带来的污染,很难避免。

  后两个实验用的样品是大名鼎鼎的HeLa细胞,就是那个传说中不死的女人。

去Google玩

  晚饭后跟着朋友去五道口的Google公司玩。各层都转。售后支持部门女孩儿居多,办公环境居然被布置成了一个大大的婚礼现场,和研发部门的风格迥然不同。玩了很长时间的桌上足球。对程序员来说Google的气氛真的很梦幻。

生化学家怎么工作?

  昨天带着服务器安营扎寨,今天开始和生物学家们呆在一起。接下来的任务是请他们试用pFind,也跟着做实验打下手,了解了解需求。因为是在服务器上编代码,工作时间没办法上网。

  先跑个最简单的,把牛血清标准蛋白的质谱数据扔进去,答案序列混在人的蛋白里当侯选数据库。请人家看了看结果,该搜出来的东西都有了。 这只能证明算法没大错,不表示能力有多强,后面还要经受混合上百种蛋白有修饰的真实实验的考验才算数。不管怎么说,第一次在实际用户面前亮相,也算初战告 捷。

  瞧瞧人家搞生化的,白大褂胶皮手套,大小仪器瓶瓶罐罐,恒温恒湿的操作间,几百万的设备,到处是眼花缭乱的试管和仪器在闪烁,这才像传说中搞Science的样子。哪里像我们,就知道对着个方盒子敲啊敲,整个儿一打字员。

  另一个区别是ppmm好多……不过胆子都好大……切开小白鼠眼不眨,处理剧毒药剂手不抖

  下班,等实验室的mm带我去坐班车。她说“等我看看效果,站远一点,紫外线有污染”,看她也什么防护都没有,就大着胆子凑上去,人家也是人,我怕什么呢?“这是什么?”,“DNA”,“我只听过蛋白质电泳……”,“也有核酸电泳”,最后她关上紫外线灯,“结果不错。看样子你还挺感兴趣,下周帮我 作试验好了”,“那就变成添乱了”,“哪里,新手运气好,最难的两个克隆样本让给你”,汗……

  OK,生物学家一天的工作就是这样的。

夜来思得千百计,白天还是磨豆腐

  得到BOSS H许可,今天第20 稿终于submit。投稿前还在不断改,再不投就要神经错乱了。晚上回来一看,又找到两个错误,苦呀。如果中……如果不中……,老娘笑我“夜来思得千百 计,白天还是磨豆腐”,从小就特会胡思乱想,现在也没变,哈。先撂下不管了,看BOSS H布置的作业,《修炼》,讲职业生涯的书,一般。

  BTW:用GoogleBaidu搜索“夜来思得千百计,白天还是磨豆腐”,居然都搜不到,怎么搞的。

投稿和借书

  登陆网站,填写preferred reviewers,大着胆子选了Matthias Mann,修改引用和插图,然后上传文件,最后给其他作者发邮件。OK,就等24小时以后投稿了。

  BOSS H替我借到了Bioinformatics Software Engineering: Delivering Effective Applications,作者Paul Weston。只有薄薄120页,卖65$好贵。这个阶段之后,我也打算总结一下自己在生物信息学领域的软件工程经验。

冲刺

  这几天真象打仗一样,也顾不上更新Blog。年初的四个目标在望:

  pFind在进行最后的测试调整,加班;论文上周第15稿,一开始没想到最终目标是影响因子3.08的英文期刊,当然投是一回事,录用又是另一回事;前天领了进修班结业证和考试成绩,考试马马虎虎,应该做得更好;房子地板刚铺好,在等物业验收。这阵子装修最难忘的是5:00起床去赶香河家具城的免费班车。买房很狼狈,有地方甚至全凭运气,经历一遍成长很多。

  本科听老罗的课:“年纪大一点以后,最难的就是保持强悍,仍然敢把理想挂在嘴边”。当时没真正理解,或者说不够老,还没资格发表观点。这几年真正搞清楚的就一点:充满激情不是坏事,很酷。

XP和项目管理

  越是不了解XP缺少实际TDD体验,甚至是已经脱离一线开发的人,越喜欢说“XP是反软件工程的”、“XP不要设计”、“XP让程序员开心,却是项目经理的噩梦”。引用一篇Robert C. MartinAgile Methods – The Bottom Line,专门论述了XP如何为项目管理提供强有力的支持。

  类似Robert C.Martin这样,敏捷阵营的领袖大多仍在参与软件项目的实际编码,所以XP很贴近软件项目的实际需要,例如设计模式、单元测试等。这两天在对质谱鉴定系统进行残暴的支解,各个模块拆得七零八落,但依赖了CppUnit,还是可以有条不紊地重构,又一次体会到TDD的妙处。上来敲感想。再一搜索,呵呵,原来以前写过类似的内容,几乎是重复了

重返人脸识别,富士康的和谐社会

  昨晚整个生物信息组加班干到11点,今天领导们飞往上海,小兵蛋子们可以喘口气了。可怜俺又被借到人脸识别组改程序,好久没看代码,生疏了,强打精神改完。都三个星期没假期了,与富士康共建和谐社会

  不过以前写的人脸标注系统还真棒。又是单击,又是双击,又是拖拽,又是右键、又是Gamma处理、又是备注、又是检验、又是重载输入输出、又是定制、又是验证……众多功能布置得井井有条。隔了将近两年重新看,基本不用依靠注释,通过各个类的成员函数名就全摸透了。修改完编译,CPPUnit单元测试案例一路绿灯,超有成就感。嘿嘿,得意一小下。

FDR实验完成

  无论LTQ还是QTOF,pFind的二电荷质谱FDR曲线都很漂亮,超过了Sequest和Mascot。守着12万数据来来回回跑了10遍,熬得灯枯油尽了,俺现在就想着赶紧回去睡个好觉。


LTQ数据鉴定结果FDR曲线对比


QTOF数据鉴定结果FDR曲线对比

喝到水了

  “就像在沙漠里走了十天,终于喝到第一口水”——姚明

  山重水复的时候出现转机。今天那些奇奇怪怪假阳性曲线消失了。组里这些天的不断改进终于见到了成效。索引程序的BUG的修改算法和数据的精度的加强肽序列质量计算公式的摸索N端M问题的发现、搜索策略的尝试……这些点点滴滴的细节构成了量变的基础。

  论文还在不断改,感谢总热心提醒我的dq。

  回家好好休息一下。下个月继续前进。