Tag Archives: 后缀树组

pFind引擎的第四代索引模块

  因为CNCP2010,同时也有些私事,最近很忙。live spaces又拆迁。所以BLOG节奏受影响。这周末陆续敲点流水帐。

  首先要祝贺zhch的后缀数组论文经过一年历练总算被BMC Bioinformatics接收。相关专利也提交了。(在这之前,sun老师的ETD论文也发表了,BOSS H昨天说,今年一年组里发了6、7篇,快等于此前几年的总和了)。

  pFind搜索引擎的索引技术一直不断传承和推进:dq老大最先奠定基础,推出IndexToolkit开源项目并在Bioinformatics发表Application notes;之后ly哥凭借不懈努力吃透了倒排技术,重构了索引模块,发表论文申请专利;接下来zhch凭借ACM金牌的强悍算法功底继续前进,先是将倒排索引的数据容量上限提高了几个数量级,然后又另辟蹊径引入后缀数组技术,颠覆了前人的工作。

  年底推出pFind 2.6之后,我们将着手把zhc的模块从develop分支移到release分支。这是pFind的第四代索引了。当然这只是刚开头,它必须通过全面严厉的测试,才能证明自己有资格替代老版本索引,在工业级产品中担当主力。