leo和hchi的倒排索引的文章被接收了!

  昨天起的就很早,一整天都在会场上偷着和瓶子双人编程;今天上午又要去对外交流,所以起床比昨天还早;下午把曙光5000A上的pFind并行版内核代码升级做完。Aho- Corasick算法代码遇到BUG,拖住hchi哥帮忙调试,天黑才放他走。我和瓶子等到很晚,测试完全正常才去吃饭。回来路上感觉特累,地铁里站着,心脏开始不规律地跳。21:00到家给hchi哥打电话,他还在路上呢。

  刚收到邮件。leo和hchi的倒排索引加速pFind蛋白质搜索引擎的论文被Rapid Communications in Mass Spectrometry接收。从07年痛苦摸索逐渐清晰,08年代码重构海量测试,09年申请专利反复投稿……倒排索引技术的研发一步步走来,纠结很多,故事很多,做得真很出色。俺虽然只是端茶送水摇旗呐喊的第三作者,同样超有成就感,万岁!这也是dq老大的IndexToolkit之后,pFind搜索引擎在索引算法上的又一个重大进展。

  前一阵hchi很疲惫,有次开会时私下和我聊天说:早上咳醒后,觉得自己快死了。最近两天他连续有deadline,我总担心他被拖垮。生活很公平,终究会在你最需要的地方,设置一个加油站点。去年1月7日刚好这篇论文诞生,颇符合hchi这个宿命论者的观点。

  我和瓶子的Rapid Communications in Mass Spectrometry投稿遇到点小问题,编辑粗心,把其他论文的审稿意见错发给我了。大概是圣诞节心不在焉吧。争取在一期期刊上,同时出现pFind 蛋白质搜索引擎的两篇加速文章,互相印证,那可就帅了。

  不管怎么说,大家注意身体。健康是1,其他的都是0。还要走很远,把pFind做成。

1月5日

  总结一下,09年总共发表了79篇BLOG。

  转眼贺仲雄教授去世两年了,时间过得飞快。他当年上课的很多话,现在才能真正体会。纪念老师。

  科学松鼠会刚发了一篇BLOG,介绍人类的无意识模仿行为的心理学和社会学常识。最后一段提到“夫妻相”,还贴了一张很可爱的插图。推荐。

暴雪和张小盒话剧

  上周五晚上,老娘和朋友视频聊天。突然杀到客厅来和我说:“我想去海南玩”。于是第二天就订了飞机票。公元2010年1月1日飞向温暖的南方。昨天打电话说,三亚只穿衬衣,跑到沙滩去玩,海水是温的。

  不得不佩服老太太的先见之明。她一走,北京就开始强降雪。

  本来pFind同伙们组织去香山玩真人CS。早上出门,小区里停车位都只能看到一个个大雪堆,路上全堵住了,于是只好回家,打电话给yjw美女说不去了。其他小孩还是去玩了。所谓年轻,就是在五十年一遇最低温,漫天飞雪不见停的情况下,依然兴致勃勃地跑去打露天游戏吧。

  原以为晚上的话剧也看不成了。到了下午雪渐小,天气预报说入夜后会停,又出门尝试。运气不错,一露头就遇到一辆黑的,顺利到了轻轨。花了三小时赶到王府井。东方先锋剧场平常都乌洋乌洋的,今天只坐了一半。话剧一开场,演员说:“刮风减半,下雨全完。这么大的雪,大家还来看我们的话剧,谢谢。”

  N年没看小剧场话剧了。上个月hchi哥和yjw美女去看《恋爱的犀牛》,回来模仿台词:“恋爱的‘恋’字,就是变态的‘变’的上半边,加上变态的‘态’的下半边”。回忆起在蜂巢、戏曲学院看《恋爱的犀牛》、《翠花上酸菜》还有更多实验话剧的乐趣。这次看的是张小盒话剧第三季《办公室有鬼之点头YES摇头 NO》。还不错。

  回来的路上很冷,地铁站里人还是很多,不少中年人在议论宋丹丹、濮存昕、徐帆在话剧《窝头会馆》里的表现。好像也是王府井,首都剧场。

  明天北京实施应急预案,学生都不上课。大家注意身体和安全。

  新年快乐。

这一期小姬看片会很好玩

  前瞻研究实验室年终考核。自己的总结一般般。倒是从别人的报告里收益不少。本想在BLOG上记录一些。周末在家始终无法正常访问live.com,刚刚才恢复。要休息了,稍后再说。长时间不更新BLOG很不好,所以上来随手敲点,想到哪里是哪里吧。

  2009科学嘉年华如火如荼。这一期的小姬看片会的主题是“爱情和性”,嘉宾里有动物所的科学家,也有老罗这样很好玩的老男人。推荐。科学松鼠会有文字版全文土豆有视频

  Tinyfool提高BLOG更新的频率了。为了证明真有订阅者“嗷嗷待哺”等着看BLOG,鼓励他坚持下去,不跳出来推荐一下不行呀。当然,他的分享本来就值得推荐。

  最近Resys第三次聚会的材料陆续放出来,更后悔没抢上名额了。个人很关注的是MPI和MapReduce的不同应用场合。上次Hadoop大会也听百度的工程师提过类似的话题。好像计算密集型的应用还是更适合MPI。明年我准备pFind实际对比一下。

  一年快过去了。私事稍后专门写BLOG。关于公共领域,发生了很多好的和坏的,有些事让人愤怒。不过我自己觉得还好。之所以保持乐观,是因为大家还拥有幽默感。无论网络、报刊、电视、短信,人们仍然在拿自己、拿这个社会开涮。下面这个链接是网易的年终总结。

  接下来一周(正确的说,是4天)打算努努力,让工作有些进展。

2012和韩寒

  2012?另据新华社消息,菲律宾政府20日将马荣火山的警戒级别由3级提升至4级。

  以前看过一个调查:如果即将世界末日,你要做什么?记得74%的男士选的是:“把单位里最漂亮的女孩扛回家”。韩寒的小说《一座城池》的结尾对此有更生动有趣的想象。我倒很好奇,除了打砸抢烧以外,谁还有啥更有创意的点子吗?

  说起韩寒,最早接触是《长安乱》,感觉文笔很成熟。后来又陆续读了《三重门》、《光荣日》和《一座城池》。前一阵子《新世纪周刊》因为他对公共事务的锐利直言,选他当2009封面人物。里面有一句话:“10年里,大家都各自老了一点,宽容了一点。”

里程碑收尾,论文,雪季开始,理想主义和Hadoop的调度算法

  里程碑接近完成。这一版pFind Studio除了增强搜索引擎内核,也针对用户易用性进行了改进。需求列表很长,但很多问题需要微妙的权衡取舍,没想清楚之前不宜动手。因此在有限时间内,主要是集中解决几个重点问题,减小智力负担,提高用户体验。好几个月没上一线写代码了,都有点生锈。

  leo和hchi的论文一年内被拒两次,终于有希望了。加油!工业级软件、发明专利、国际期刊……一个都不少,科研创新的过程很完整,赞。然而,zhch牛人的新一代后缀树组索引算法,又将取代pFind内核里现有的倒排索引。把前浪拍死在沙滩上。我的论文还在under review。

  最近心情略好,给自己买了条新的单板滑雪裤,去乔波玩了两次。今天听说出事故了,中级道关闭,警察来来回回勘察。阿弥陀佛,大家还是要注意安全,科学练习,初学者最好请教练,不要傻大胆强行冲坡,练单板的人要戴好头盔和护具。自从08年初受伤以后,滑单板变得很谨慎。今年春季dmq老板委婉地说:“忒平稳了”;雪场教练的评价就直接多了:“专拣最没激情的那种动作”;现在,又被总雪龄少于10小时的小朋友在初级道上鄙视了。没办法,十年怕井绳,三十岁的老胳膊老腿了,安全第一安全第一。

  不过,静下心来,就把左右脚的落叶飘和换刃都练熟了。认识了一位不错的专业教练。原来八一队练冬季两项的。年纪很轻、人很帅、脾气不错、技术当然很牛。只可惜受伤提前退役了。我打算上难度的时候,就雇他教一天。

  最新《程序员》里有一篇张岩的自述。讲到考研和求职,讲到亲人突然去世,讲到公司重组,讲到challenge和沟通。文字很朴实。有些话值得年轻人体会,例如“做工程师永远要记住细节是魔鬼,只有在细节上充分积累,技术上才有成长的空间”;又如“请保持理想主义,相信我们做的事能改变生活。我们每天起床和上班,不是为了赚钱糊口,而是因为兴趣和使命感。”

  技术上最引起我注意的是《Hadoop集群作业的调度算法》,正好是下一步工作的重点。豆瓣王守崑的《走进个性化推荐系统》讲的是近期热点,也很有意思。(Resys召集聚会,就在豆瓣公司举办,可惜报名晚了没抢上名额,哇哇哭)

流水帐.2009.12.14

  代码冻结了,不再check in任何新功能,只修改BUG,没完没了的BUG呀。

  前两天写到生日重复的概率科学松鼠会刚发表了一篇与相关BLOG:《生日悖论与生日攻击》

  今天给组里群发了一封邮件,题目是:像抢银行一样搞软件工程。号召大家努力创建professional的团伙。怎么回事呢,这里有一篇BLOG,介绍抢劫银行工程理论的创建。“所有可能性都要考虑到,一切意外都有预案。最专业的高手从不指望临场发挥,随机应变是外人看见的一种错觉。”,和软件工程没啥两样。

  Boss H得奖了。低调,居然没向俺们透露。还是瓶子哥无意中从清华大学网站搜索出来的。

流体力学和干妹妹

  最近在汇总代码树,身心憔悴。我这个愁啊。

  推荐一个视频。老妈曾经是大学里的流体力学教师,所以从小熟悉这种乒乓球在气流里的实验。还有一次,写论文需要直观思维。抢走了儿子的橡皮泥去捏涡轮模型。那个时候第一次接触穿孔纸带计算机,记得进机房还要换拖鞋和白大褂。

  豆瓣电台的算法终于把张震岳的《干妹妹》推荐给我了,哈哈。说到用户评价和推荐,xlvector大虾刚刚发现郎咸平也在研究餐馆评价网站的数据。不过经济学家的思路与算法研究是不一样的。

多背一公斤和showstopper

  进入12月超过一周没写BLOG。不好意思。

  首先做个公益广告,“多背一公斤”志愿者们又有活动了:正在为贫困地区的乡村小学募捐御寒服装。活动截止时间是1月1日07:00。大家帮忙宣传。

  最近睡前在看Showstopper: The Breakneck Race to Create Windows NT and the Next Generation at Microsoft的中文版。这本著名的报告文学介绍了Windows NT开发的过程,以及其中众多的人物。

  没按顺序,跳读。NT1.0发布前的最后阶段很有意思:和其他软件项目一样,这时候充满了潮水一样的BUG、不断推迟的日程、疲惫的士气、紧张的人际冲突……只不过这个规模超常(耗资1.5亿美元)的项目,问题的规模也超常一些:开发团队已经在一年内修正了三万多个Bug,但前面还有几乎同样多的BUG 等着(之后三个月里,又平均每天修正了200个BUG)。

  漫长艰巨的项目导致很多夫妻失和。项目负责人Cutler因为不能控制暴怒,一拳打在墙上,手指骨折。发布前最后一个check in是修正Pagemaker打印驱动的BUG。而负责该BUG的测试工程师无法忍受巨大的压力,在此前一个月放弃25万美金的微软期权,辞职去开洗衣店了……

  老做噩梦,大概因为pFind Studio新版也接近deadline。就在昨天,我们修正了10个BUG。

友情宣传stdyun.com

  有需要的朋友去stdyun.com购买虚拟主机吧。

  其实只见过张沈鹏两面,他没让我帮忙宣传。这里纯粹是自发的友情支援。为了让这篇BLOG显得不要太水,再写点八卦话题吸引眼球,哈。

  老张刚离开豆瓣那个让男青年们起歪念头的美空网的时候,我问他以后打算干啥,他平淡地说,先卖卖虚拟主机吧。摸不着头脑,所以一直保持关注。stdyun.com推出来一踅摸,没那么简单,还在开发更好玩的应用。你看首页那段邪恶的《网络创世纪》,虚拟主机仅仅是教主的第一步。

  回来说现成的东西。stdyun.com提供的虚拟主机最合适python项目。为教育入门级用户,还专门写了本风格很恶搞的新手教程。另外,limodou大神已经把Uliweb轻松移植上去了

  正因为这个,前两天CSDN首页挂出“google限制Python项目”的新闻专题,老张就只好发声了Beta技术沙龙的时候,他这篇BLOG被用来挤兑新官上任的刘江老大

  在国内靠技术创业不容易,加油!