Tag Archives: 倒排索引

pFind引擎的第四代索引模块

  因为CNCP2010,同时也有些私事,最近很忙。live spaces又拆迁。所以BLOG节奏受影响。这周末陆续敲点流水帐。

  首先要祝贺zhch的后缀数组论文经过一年历练总算被BMC Bioinformatics接收。相关专利也提交了。(在这之前,sun老师的ETD论文也发表了,BOSS H昨天说,今年一年组里发了6、7篇,快等于此前几年的总和了)。

  pFind搜索引擎的索引技术一直不断传承和推进:dq老大最先奠定基础,推出IndexToolkit开源项目并在Bioinformatics发表Application notes;之后ly哥凭借不懈努力吃透了倒排技术,重构了索引模块,发表论文申请专利;接下来zhch凭借ACM金牌的强悍算法功底继续前进,先是将倒排索引的数据容量上限提高了几个数量级,然后又另辟蹊径引入后缀数组技术,颠覆了前人的工作。

  年底推出pFind 2.6之后,我们将着手把zhc的模块从develop分支移到release分支。这是pFind的第四代索引了。当然这只是刚开头,它必须通过全面严厉的测试,才能证明自己有资格替代老版本索引,在工业级产品中担当主力。

章文嵩的技术报告

  上周末,淘宝网基础软件研发部的负责人章文嵩来计算所做技术报告,一直想记录一下。最近三天在家里照顾病人,所以没顾上写BLOG。

  大约是十年前在AKA的网站认识了章文嵩和他的LVS。 那时候我刚刚接触开源,正在阅读Linux内核源代码,积累俺的《joyfire linux笔记》。当时LVS正在争取成为第一个汇入Linux内核的Made in China项目,我等粉丝狂热崇拜,《joyfire linux笔记》里有专门一章收录LVS技术资料。

  隔了这么久,章文嵩的外貌似乎没啥变化。这次报告主要介绍淘宝网的基础设施,例如分布式文件系统(TFS)、K/V缓存系统(TAIR)。细节可以参考幻灯

  章文嵩提到他们正在踅摸倒排索引等技术,研发上千亿规模的全文检索功能(淘宝网站现有40亿条目,每年翻一番)。另一个设想是图片搜索,预计2年初步可用:女孩子们可用3G手机拍摄商场里的衣服和鞋子,然后发送到淘宝网站,搜索类似的商品信息。

  章文嵩认为,在网络服务基础中间件领域,商业专有产品性能无法令人满意,淘宝正在实施开源战略,一方面用开源产品把现有平台逐步替换掉,另一方面也对自主研发的基础设施进行开源。他们的TAIR刚刚开源,TFS 预计会在9月份开源。

  目前淘宝网平均一笔交易耗费0.4度电,可以煮熟4个鸡蛋。因此和Google一样也开始关心能耗问题,希望定制 低功耗的服务器。考虑到Memory Cache和Web Service等模块大都是I/O密集型的,对CPU主频要求不高,没必要安装最强悍的CPU。章文嵩抱怨INTEL只看重利润,漠视环保:淘宝希望大规 模采购ATOM处理器,得到的回答是“不符合公司战略”,不愿意ATOM挤占高端芯片的市场。最终选用了VIA处理器,关闭不必要的主板模块如USB,能 耗大大降低,实现了无风扇,依然有不错的处理吞吐量(单机柜6Gbps)。

leo和hchi的倒排索引的文章被接收了!

  昨天起的就很早,一整天都在会场上偷着和瓶子双人编程;今天上午又要去对外交流,所以起床比昨天还早;下午把曙光5000A上的pFind并行版内核代码升级做完。Aho- Corasick算法代码遇到BUG,拖住hchi哥帮忙调试,天黑才放他走。我和瓶子等到很晚,测试完全正常才去吃饭。回来路上感觉特累,地铁里站着,心脏开始不规律地跳。21:00到家给hchi哥打电话,他还在路上呢。

  刚收到邮件。leo和hchi的倒排索引加速pFind蛋白质搜索引擎的论文被Rapid Communications in Mass Spectrometry接收。从07年痛苦摸索逐渐清晰,08年代码重构海量测试,09年申请专利反复投稿……倒排索引技术的研发一步步走来,纠结很多,故事很多,做得真很出色。俺虽然只是端茶送水摇旗呐喊的第三作者,同样超有成就感,万岁!这也是dq老大的IndexToolkit之后,pFind搜索引擎在索引算法上的又一个重大进展。

  前一阵hchi很疲惫,有次开会时私下和我聊天说:早上咳醒后,觉得自己快死了。最近两天他连续有deadline,我总担心他被拖垮。生活很公平,终究会在你最需要的地方,设置一个加油站点。去年1月7日刚好这篇论文诞生,颇符合hchi这个宿命论者的观点。

  我和瓶子的Rapid Communications in Mass Spectrometry投稿遇到点小问题,编辑粗心,把其他论文的审稿意见错发给我了。大概是圣诞节心不在焉吧。争取在一期期刊上,同时出现pFind 蛋白质搜索引擎的两篇加速文章,互相印证,那可就帅了。

  不管怎么说,大家注意身体。健康是1,其他的都是0。还要走很远,把pFind做成。