SD2.0和中国Cocoa移动开发者大会

  感谢Boss H的支持,我刚去上海参加了2010软件开发2.0大会。听的报告里,比较喜欢下面几个有干货的:

  多数报告很精致(例如美女西乔那个工业设计方面的报告),有的报告很好玩(例如淘宝的赵昆利用电子商务数据分析中国女性的胸围增长趋势)。

  反过来说,也有比较烦人的报告,一般都是各巨头(例如MS和IBM)派来的忽悠。在这么一个纯技术主题会议上,让很久没从事一线开发甚至缺乏基本技术Sense的管理或销售跑来“云”山雾绕,对口碑往往起反作用。

  移动开发慢慢变成热点。连hchi哥都在计划写个pLabel的智能手机版。这次碰到Tinyfool,他正忙着筹办1月8日的“中国Cocoa移动开发者大会”。同志们可以利用这个机会和iPhone开发牛人交流。

  这次的确有不少收获。遗憾的是缺乏系统级开发“硬核”方面的内容。例如没有C++、D或GO语言的讨论。大会重点是云,却没有Hadoop相关的报告。国内应该有很多做垂直搜索或专业搜索引擎的团队,例如我们pFind,我很希望能和这个圈子的朋友多交流。

  最后,人民搜索和我毫无瓜葛,大家不要再挖苦俺了。

列书单.2010.12.8

  正等着坐火车。顺手把昨天去海淀图书城买书的单子列出来,因为11月欠得厉害,最近报复性购买,稍微多了些。很多还没看。带三四本去上海。

  买到了麦克尤恩的《只爱陌生人》,钱穆的《中国历代政治得失》,黄仁宇的《从大历史的角度读蒋介石日记》,editions de paris《巴黎个性工作空间》,史蒂文·兰兹伯格的《性越多越安全》,卡尔文的《大脑如何思维:智力演化的今昔》,阿兰·德波顿的《机场里的小旅行》,奥姆斯特徳的《波斯帝国史》,凤凰书品的《我读2》,黄仁宇的《中国大历史》,席勒的《三十年战争史》

  只是没见到《三体3》和《1Q84 book3》,一直是“只闻楼梯响,不见人下来”。

去上海参加“软件开发2.0大会”

  马上要去上海。先参加12月9日的“软件开发2.0大会,然后去合作伙伴那里升级和调试pFind并行版。自从08年底最后一次去上海,时间飞快就过去了。很喜欢上海这座城市,一想到小杨生煎包就掉口水。期待与上海的朋友们聊天。

  一年的工作即将收尾。等我再回到北京,pFind Studio 2.6就会正式发布。敬请期待。

  我是08年初去上海时戏剧性地陷入低潮的。此后一路挣扎。今年开心地完成了几件大事(这个这个这个这个),终于从大坑里爬出来了。这次再去上海,也算是故事首尾呼应吧。BOSS H今天开会评价我“最近三年工作风格上变保守了”。的确是谨慎了,这与工作具体需要和个人的心境都有点关系。等pFind Studio 2.6发布了,明年放松下来,着手更多探索性工作,尝试弄出些吓人的东西来。

生物信息和云

  云计算在生物领域面临几个问题:首先是计算密集型和数据密集型的平衡,其次是授权管理和安全问题,第三是T级别甚至P级别海量数据的实时传输和分发。最近读了几篇相关论文,分享一下。

  Clare Sansom刚发表在Nature Biotechnology上的Up in a cloud?这 篇文章分析了美国市场上生物云计算的问题和趋势。云计算包含多种商业模式,目前亚马逊式的“公用云”租用已逐渐普及,租用计算资源的用户中生物领域占到了 一定比例。相比传统的超级集群租用,这种形式优势更便宜更灵活,能做为对外服务的基础。但安全性和授权管理还是制药公司和生物研究单位的顾虑之一。

  与此相关,Eric E. Schadt等人在Nature Reviews Genetics刚发表了一篇题为Computational solutions to large-scale data management and analysis的综述,更深入地对生物领域的云技术进行了汇总,介绍了超级计算机、网格计算、云计算和异构并行(GPU)技术在生物计算中的成功案例,并对比了其不同的应用特点。

  同时,Joel T Dudley和Atul J Butte在Nature Biotechnology发表了一篇文章,题为In silico research in the era of cloud computing, 主要从另外一个角度展开讨论。由于生物学研究越来越依赖大规模计算,同行间重复别人的工作面临着很多软件和计算问题。而可重复性 (reproducible)是现代学术体系的基石。作者希望利用虚拟机技术提供同行评议时的可重复性,同时又能保护必要的知识产权和技术机密。

  另外几篇,Michael C Schatz发表在Nature Biotechnology上的Cloud computing and the DNA data race,以及Monya Baker发表在Nature Methods上的Next-generation sequencing: adjusting to data overload,都主要涉及新的测序技术导致的数据剧烈膨胀。

  还看了Sector/Sphere作者在SC09(The International Conference for High Performance Computing Networking, Storage, and Analysis)上的论文Lessons Learned From a Year’s Worth of Benchmarks of Large Data Clouds。如果看过Sector/Sphere最早的论文, 再读这篇就比较轻松。这篇文章对Hadoop和Sector进行了更详尽的对比。相对源于Web搜索引擎的Hadoop,源于科学计算领域(在海量天体照 片中搜索可能存在的褐矮星)Sector先天具有一些特点:例如C++比Java的性能优势;例如可跨数据中心运行的安全机制;再例如UDT协议(UDP-based Data Transfer Protocol)比TCP协议在海量数据传输分发方面的优势……

  Sector/Sphere作者刚刚创业,建立了verycloud.com公司,提供云计算领域的咨询和定制开发。

  一直希望建立pFind“专有云”,向Google一样提供行业数据处理的在线服务引擎。因此,除了领域算法,还需要掌握一整套软硬件维护和运营能力。这很难,但如果成功,则不可替代性很强。不仅仅可以避免传统软件的桌面维护,避开盗版,让反向工程模仿成本大大增加。

  游戏产业放弃单机版转向网络云技术是一次成功的突围。生物信息能重复这个故事吗?

42区、话剧和书单

  42区一开始就给我发了邀请。因为前些天实在太忙,没上去摸。刚在上面建好了自己的页面,并且在这个BLOG添加了友情链接(呵呵,刚想到BLOG搬家还得折腾)。这是教主开始创业以来的第三个产品,有美空网的痕迹,他没白待。我的42区里对自己的报价是:在线咨询30元,预约时间(北京)300元。比tinyfool少很多,自己觉得基本体现了我们之间的技术水平的差距。

  老婆可怜我最近神经太紧绷,前些天带我去看雷子乐笑工厂的小剧场话剧《东直门天天向上》,感觉和孟京辉工作室的东西有差距。

  好久没逛书店,感觉就像快没水喝的人。周末总算去买到了韩寒的《1988:我想和这个世界谈谈》《可爱的洪水猛兽》《杂的文》,梁柏力的《被误解的中国》,曾国藩的《挺经·冰鉴》,霍布豪斯的《自由主义》,张爱玲的《小团圆》。韩寒文字里那种清醒和绝望,真的越来越像鲁迅了。



控制思想

  《三联生活周刊》10月的第41期中,有对麻省理工的专题系列采访。其中一篇提到Ed Boyden的大脑控制研究。他已经成功地利用激光控制老鼠的大脑神经反应:例如用绿光照射大脑左侧的运动皮层,老鼠就会往右转圈;再例如用绿光照射大脑的快感中心,老鼠就会待在一个地方不愿意离去。全球已经有300多家实验室使用这项技术。

  看刘欣慈的《三体II:黑暗森林》时,对其中的“思想钢印”留下了很深的印象。但这毕竟是科幻小说。没想到这么快就见到类似的实际科研进展。

  我很兴奋,和zhw讨论这件事:可以给大脑装上像《阿凡达》里纳美人一样的USB接口,像《黑客帝国》那样把自己的意识接入在线虚拟空间。结果她评价说:“邪恶的科学,你也是邪恶科学家的小帮凶”,汗!

  技术本无好坏,《三联生活周刊》专访也说,Ed Boyden的研究固然可以用于控制人的思考,关掉士兵大脑的恐惧中心,让他们在战场上毫不犹豫地去送死;但它也能成功控制一只老鼠的癫痫症,重新激活另 外一只瞎老鼠视网膜上的感光细胞,让它重见光明。原始部落的一个石斧,你同样面临这个选择:是砍树还是砍人。伦理和科学,从来都是互相影响的。

  跑去搜索到Ed Boyden的BLOG,这家伙真是个天才,出生在MIT世家,老爸是政治学,老妈是生物化学,姐姐也是MIT毕业。他自己16岁上MIT,19岁拿到电子工程和计算机科学双硕士,然后跑到斯坦福学习脑神经学,32岁时已经是MIT媒体实验室的教授。

pFind引擎的第四代索引模块

  因为CNCP2010,同时也有些私事,最近很忙。live spaces又拆迁。所以BLOG节奏受影响。这周末陆续敲点流水帐。

  首先要祝贺zhch的后缀数组论文经过一年历练总算被BMC Bioinformatics接收。相关专利也提交了。(在这之前,sun老师的ETD论文也发表了,BOSS H昨天说,今年一年组里发了6、7篇,快等于此前几年的总和了)。

  pFind搜索引擎的索引技术一直不断传承和推进:dq老大最先奠定基础,推出IndexToolkit开源项目并在Bioinformatics发表Application notes;之后ly哥凭借不懈努力吃透了倒排技术,重构了索引模块,发表论文申请专利;接下来zhch凭借ACM金牌的强悍算法功底继续前进,先是将倒排索引的数据容量上限提高了几个数量级,然后又另辟蹊径引入后缀数组技术,颠覆了前人的工作。

  年底推出pFind 2.6之后,我们将着手把zhc的模块从develop分支移到release分支。这是pFind的第四代索引了。当然这只是刚开头,它必须通过全面严厉的测试,才能证明自己有资格替代老版本索引,在工业级产品中担当主力。

计算蛋白质组学研讨会和大S结婚

  下周一,CNCP2010的会前培训就要开始了。pFind Studio的测试和改进一直在高强度进行,10月份Bug管理系统里Fixed的Bug创造了历史纪录;11月虽然刚过一周,修正和改进的条目的数量已经相当可观,看来这个月再创新高没悬念。除了准备软件,还负责CNCP2010的官方邮件,从确认住宿、介绍交通到提醒南方参会者加衣保暖,上千封邮件。

  一方面,不收注册费,拒绝商业赞助;另外一方面,筹备工作细致到了偏执(例如检查会场所有电源和插线板的插口,备份三台投影仪和三台笔记本)。外人大多难以理解。

  的确辛苦,昨晚22:00回家,疲惫不堪,地铁上人又多,突然有股砸破玻璃跳出车窗外的冲动。熬到家门口,还没掏钥匙门就开了,老婆接过笔记本,老妈打开羊肉火锅的电源,开水滚出香味儿,暖烘烘的。

  最近技术上的心得都没精力分享。说点工作外的:大S要出嫁。今天在最新一期《经济观察报》第54版看到一篇《某公子》很好玩。财经写手果然比娱乐版的层次高,写八卦都更好看些。文笔出色,叙事吸人,只是结论实在有些冷酷。用张爱玲笔下葛薇龙做比,有些狠。

即将到来的pFind Studio 2.4.2版,还有CNCP2010大会

  还在单位加班,在等一个漫长的测试进程结束,登录上来敲点BLOG。

  之前说过,下半年的一个重点就是提高pFind Studio的产品质量。七月份的2.4.1版还是不够令人满意,最近除了忙知识产权的工作以外,就是逼迫几个主力继续不断测试,修改BUG,提高用户易用性。BugFree里的统计曲线不断创造新高,几位辛苦了。pFind Studio 2.4.2版比计划拖延了将近一个月,昨天提交了pFind Studio 2.4.2 RC3供组里验收,希望这次不会被打回来重写作业。当然,这次我比较有信心能通过投票。

  越是到这个阶段,越觉得熊节的这篇《把事情做完》有道理。

  这个版本发布,刚好可以赶上计算所主办的“首届中国计算蛋白质组学研讨会”,这次会议邀请了众多国内最出色的团队来作报告。为了保证质量和学术纯粹性,拒绝了很多公司的商业赞助。到目前为止,报名的踊跃程度大大超出了我们的想象,不得不更换原定的会场。提醒大家,尽管为了促进交流不收任何注册费,还是建议想参加的朋友提交参会回执,如果到时候不得不限制人数的话,不至于受影响。会前培训的名额已经快接近场地上限,大家要抓紧了。

  请期待最新一版的pFind Studio 2.4.2,希望在11月的研讨会现场见到各位老朋友。

流水帐.2010.10.4

  还没有确定是不是WordPress.com。办妥了会通告。先补前一段时间落下的内容。好久没写BLOG,不好意思。

  9月份工作很紧张,终于把软件著作权、专利和商标的申请都搞定了。pFind并行版内容最终拆分为三个互相掩护的子专利,因为涉及到MapReduce技术,还特意和专利代理律师一起研究了有关资料,除了论文,还包括今年1月份刚刚公开的7650331号专利。这期间还注意到一条新闻:Google最新版引擎Caffeine已经放弃MapReduce架构。接下来补更多实验,要啃一个超过五百万张谱图的庞大数据集。偏偏碰到深腾7000停机修整,踅摸中……

  最近不仅没精力写BLOG,也没空买书。前两天才抽出空来去了一趟中关村图书大厦,买到了爱德华·吉本的《罗马帝国衰亡史》、沈群的《美国也荒唐》、W.Bruce等的《搜索引擎》(也就是Search Engines: Information Retrieval in Practice的中文版)、周汝昌的《红楼小讲》、林语堂的《平心论高鹗》