Author Archives: wangleheng

基于云计算的蛋白质组学

  又到了写BLOG的Deadline。对我来说写作是种享受。只是之前这段碎碎念太多,BLOG总在码琐事。所以这次Todo List要求必须写技术。

  这个月的Journal of Proteome Research上刚刚发表了一篇论文,利用Amazon Web Services提供的EC2平台进行质谱数据的肽和蛋白质鉴定。这正是俺加入生物信息课题组五年来朝思暮想的目标。科学界对云计算概念接受速度之快令人惊讶,已经看到物理、生化、机器翻译领域的不少研究,都是租用云服务以完成海量计算任务。

  今年7月我们将发布pFind 2.3。速度精度都将有进一步提高,敬请期待。

  虽说要写技术,还是忍不住写点八卦。

  周五带小弟去和美女们KTV。通宵的麦克风争夺战打完,五打(60瓶)啤酒喝下去,得出鉴定结果:计算所的程序员男生实在太腼腆内向,无论是飙歌还是拼酒,都被生化丫头们比下去了,与写代码时的生猛劲头儿形成鲜明对照。

  和职业有关?错!恰恰是俺们唯一的女生不露怯,对方阵营唯一的男士三次敬酒,wyj美女都是干干脆脆吹下去一整瓶,和她开发新版搜索引擎一样气势逼人。

  没有生人,这帮家伙就活跃多了。上周末,请组里未婚人士到家里玩WII。整晚俺都在担心客厅的木地板,也奇怪楼下邻居为何不在临晨3点报警。

植树归来

  我的偶像sparc大虾组织网友们参加greenbeijing.net的义务植树活动。俺刚回来。稍后贴照片。

  实际体验才知道,种树不简单,好久没有流这么多汗,晒这么多太阳了。而且科技含量也很高,凿石、土质、肥料、保水、针叶和阔叶的配比……

  不过,俺们还是很厉害,速度和质量都接近专业人士。俺和林经理配合默契,树苗的保水层垒得非常扎实。林总为了搜集压底的大石块,小臂被荆棘划了好长一道口子。林场工人说:“看看这帮人,这才是真心实意来种树的”。回来的时候,不止一个人都嫌劳动量不够。

  中午野餐,和热心公益的同龄人聊天很放松。我是新兵,sparc他们几个连续参加过四五年,跟林场工人都认识了。还有很多年轻的妈妈带着小孩子来体验。有位大哥,刚见面就觉得面熟,踅摸半天哪里见过。最后两个人同时记起来,原来他是本科比我高一级的学长,以前去GodSpeed宿舍串门经常见的,哈。

  工作压力大,情绪总是不高,睡眠也不好。有机会参加这种活动,自我感觉忒好了。这的确是对心灵的投资。嗯,要按年度计划坚持参加公益。

  BTW 1:带了本《光荣日》,但没顾上看。不过组织者发了一只印有环保知识的书签当纪念,刚好夹在书里。

  BTW 2:注意了一下林总的言谈,她的确是个很会倾听的人,怪不得事业有成。要学习。今天和林总聊天,听sparc他们几个说工作的事,对自己接下来的职业生涯有了更明确的设计。

  BTW 3:忽悠林总创业,俺就有老大可投奔了。被识破企图,哇哇。总结:“joyfire只忽悠自己信任的人。”

列书单.2009.4.7

  今天第一天上班,状态不错。刚好清明假期宅在屋里,导致“精神食粮”断顿儿了,于是奖励自己逛书店。

  买到了陈年的《归去来》、迪安的《西决》、韩寒的《光荣日》、Laney的《内向者的优势》、Cunningham的《The Essays of Warren Buffett中文版》、Neal Ford的《卓有成效的程序员》、Sharon Rose的《有趣的制造》

            

  有点儿兴奋过头,买多了,一大摞书加上笔记本电脑包,差点扛不回来。幸亏5号线地铁里遇到一位好心的女孩子,看我狼狈不堪狂滴汗,就给我让了位子坐。坐到最后才发现,她是和我同一站下车。可惜俺哆哆嗦嗦说了谢谢以后,就再不敢抬头仔细看了,只记得带着很大的耳环,身材很好。嗯,毛主席保佑美女天天幸福。

  前两天看了Rachel Getting Married。非常喜欢其中的不断递进的情节交代、混搭的音乐背景,以及DV风格的长镜头。不过豆瓣上评价两级分化,可能有些影迷无法接受心目中的偶像美女扮演这样一个孤僻的戒毒者。这部电影和The Weather Man风格很类似,前半部很压抑,激烈冲突之后获得自我的拯救和平静,都是成年人的故事。

  

有什么办法可以让一只老鼠变得抑郁?

  豆瓣生物信息小组里,有人贴出求救贴:“实验室需要抑郁的老鼠,有什么办法可以让一只老鼠迅速变得抑郁起来?”

  各位生化达人赶快帮忙想办法。

  据说总不见阳光,褪黑激素分泌过少,就会抑郁。电视剧里嫩白淑女都是惆怅的,网上的宅男宅女也或多或少有点儿心理疾病。所以,把老鼠关在伸手不见五指的地方,是不是就抑郁了。可老鼠洞本就伸手不见五指……

  个人经验是,饿肚子时经常情绪低落。不妨试试饿老鼠几顿?嗯,可万一实验结果会出现偏向性,开发出来的药物对胖人不管用怎么办?(提醒各位美女:珍爱生命,远离减肥,真抑郁就麻烦大发了)

  要不索性双管齐下,不给吃东西,还关黑屋子?可怜的小白鼠。

  严肃点,这儿科研呢。记得《经济观察报》上有篇文章写过,美国药品市场上,抗抑郁药占有非常大的比例,所以该领域的研发工作,是药物巨头企业的重中之重。

  嗯,假期第一天,睡到下午15:00才起来,重度宅,罪过罪过;而且现在还没吃晚饭。为防止抑郁,马上就去厨房,我打算包点饺子给自己吃。

  希望各位小白鼠清明节都有好吃的可吃,有太阳可晒

4月1日节日快乐!

  袖子早上晕晕呼呼没睡醒时,就被人家骗了,一个“喵”短信发出去3秒钟以后,才反应过来。

  leo接到老姨电话:“我就在你们楼底下呢,赶快出来”,他慌忙跑下去,找不到人,打电话,老姨:“读书读傻了”

  午饭吃驴肉照火烧,老板娘说我给的50块是假币,一下蹦起来:“不可能!”。她得意洋洋:“高科技人才咋这好骗”。

  几个喜欢的创业网站里,只在BlogBus发现了这一条:“即日起增加‘人脸识别功能’——登陆个人Blog页面需经过面部识别进行个人身份验证,才能访问自己的Blog,未经识别的Blog将被限制访问。”

  豆瓣反而一本正经发布了新改进:“作为豆瓣电影的入口,目前的电影首页已经不能满足这个需求。于是我们做了一次新的改版”。嗯,这是学当年Google在4月1日发布Gmail。

  笨蛋们,节日快乐!

邵小毛

  是去年开始在豆瓣上关注邵小毛的。过去她主要是鼓手。

  最近突然热起来,Google Reader订阅数一天上百得往上涨。都是因为这个视频,奶奶奶奶奶奶的,哈。

列书单.2009.03.27

  最近全都是不断的架构设计、双人编程、代码审核、文献检索和技术报告。

  今天好不容易去了一趟海淀图书城。买到了Paul M.Duvall等人的《Continuous Integration中文版》、Ben Forta的《Sams Teach Yourself Regular Expressions in 10 Minutes中文版》、韩寒的《一座城池》、萨特的《文字生涯》、比尔·波特的《空谷幽兰》、奥德丽·尼芬格的《时间旅行者的妻子》

          

《仙剑奇侠传 四》终于打完了

  浩哥推荐的仙剑四总算打通关了。对于我这种天性疏懒的人,能把游戏坚持打完,已经算不容易了。

  有天我告诉浩哥:“已经到你们山东境内了,那个即墨城”。浩哥意味深长地说:“元宵节的花灯会是重要转折点”。当时不知道他在说什么,现在才明白。从这往后气氛就越来越沉重了。姚壮宪偏爱悲剧,所以仙剑系列的主角都没什么好下场。

今天地铁上遇到的一家美国人

  没想到地铁也会堵车,每站都停10多分钟,还不时在黑暗中临时停车。今天上班算是彻底迟到了。

  我右边坐着一位老外,再过去是她的一对儿女:小男孩也是黄头发蓝眼睛,他妹妹却是黑头发黄皮肤的亚裔模样。时间过得很慢,打哈欠,就和这个外国妈妈聊起来了。

  我:你是到中国来旅游?

  老外:算是旅游吧。

  我:第一次来中国吗?

  老外:不,六年前来过一次,那时候(摸摸女儿的头发),她还是个小baby呢。

  我:两个孩子很可爱。

  老外:谢谢。

  我:除了北京,你们还去了什么地方?

  老外:香港、上海……还有山东(费劲地发音),她出生的地方。

  我:您的女儿出生在山东?

  老外:可能是吧,事实上,嗯,你知道,我们收养了她(身边的小女孩不安地扭动身体,伸手搂住妈妈的腰,于是给她额头上一个吻)。

  我:哈,你们一家人真让人羡慕。

  老外:谢谢,我喜欢中国,除了她的缘故(轻轻拍拍头),还因为人们都很友善。

  妈妈转过头和女儿说了一句什么,没听懂。她转过来说:其实我女儿会说一点汉语。然后又转过去。看样子她是想让女儿用汉语和我打个招呼,可小女孩紧张地盯着我,就是不肯张嘴。我冲她微笑,她躲到妈妈身后,最终还是蹦了一句英语。

  老外(很无奈地向我解释):她不喜欢说汉语,我逼她去学习班,我们那里有个协会(或者团体?没听懂的一个单词),全都是收养中国孤儿的家庭,我们希望孩子不要完全断绝与中国的联系,因此努力让她接触一些中国的东西,比如我们也庆祝春节,有的父母甚至学习做中国菜。

  我:她还小呢。说外语很麻烦。我就很头疼学英语。看样子她一定很乖。

  老外:孩子慢慢长大,上学,开始懂得很多事,问题就来了。有一次她生气发脾气,冲我喊:”我是被你偷来的。”

  我:这的确对她,对你,都不容易。

  老外:是啊,也许等她长大了就明白了。这次带她来,就是想让她看看自己出生的地方。我想她好像理解一些。老实说,来之前我自己也很紧张。

  小女孩紧靠着妈妈,很紧张的样子。我想,让一个孩子完全接受这一切:自己的种族、身世和来历,陌生的文化,的确不容易,需要很多年。

  我(冲着小女孩):中国和美国有很多不一样,对吗?

  她还是很警惕,盯着我不出声。倒是她哥哥大声说:“我恨蹲式厕所!”,大家一起笑起来。

  于是我和小男孩聊起来。

  小男孩:你喜欢听什么歌。

  我:很多,如果说是英文的,也许,Beatles(甲壳虫乐队)。

  小男孩:(拖长声音)太老了。

  我:和你比,我本来就是个老人了。

  小男孩:你是做什么工作的?

  我:我嘛,信息技术,你知道软件什么的吗?

  小男孩:知道,我有一台电脑,上网。据说中国人和印度人对这方面很厉害。

  我:你还真知道不少。

  小男孩:我们两个一起学汉语的,%&$#@*&(说了一堆貌似汉语发音的东西)

  我:……(没听懂,汗)

  小男孩:中国人为什么不喜欢女孩儿,要把baby扔掉。(妈妈打断,责怪他,同时紧搂着女儿;可是小家伙还是挑战式地盯着我,感觉周围的人都竖起了耳朵。)

  我:这的确是个很坏的传统,我很抱歉,不过这种事现在已经很少了,中国变化很快。

  小男孩:不管怎么样,我会保护我妹妹,我不让别人欺负她(挺起胸膛)。

  我:嘿,这位男士真棒。

  我到站了,再见,希望以后常来北京。

  小女孩也冲我招手了。

  祝这一家人幸福。

重读Google老三篇

  昨晚会议结束得太晚,没赶上末班地铁,只好打车回家,俺的银子呀wuwu~

  最近在读文献。上周过了几篇蛋白基因组学(proteogenomics)的天书,实在抓狂。这周的主题回到软件领域:大规模分布式计算。昨晚是Google老三篇(GFSMapReduceBigTable)的文献讲评,瓶子哥顺便讲了讲Google Cluster,我又带了几句Chubby论文。讨论很热烈,结果就说多了。

  我负责主讲BigTable,这次细读,发现以前读的时候忽略了很多细节。

  比如,BigTable使用bloom filter算法进行元数据cache加速。bloom filter有单边特性(它说不存在的,必然不存在;它说存在的,也许有小概率错误),这的确最适合cache这种场合。

  再如,google的分布式锁服务Chubby,在GFS和BigTable中都起到关键作用。在同步控制方面,GFS和BigTable设计思路几乎一致,都是用Chubby对master节点的元数据条目加锁,但具体数据服务节点(GFS叫chunk seriver,而bigtable叫tablet server)的同步正确性,需要客户端自己来保证。这样设计的目的很明确:尽可能保证全局服务的简洁高效,防止master节点成为瓶颈,这对大规模的分布式场景是非常重要的;当然,副作用就是客户端程序的要求更高。

  BigTable的一个重要应用是Google Analytics。另外进展很快的个性化搜索也用BT来存储用户历史和参数。之前发布的Google App Engine的python存储API,有很明显的BigTable痕迹。

  身边已经开始有人从Amazon和Google租用云计算能力了,新概念被接受的速度超出我的想象。