SD2.0和中国Cocoa移动开发者大会

　　感谢Boss H的支持，我刚去上海参加了2010软件开发2.0大会。听的报告里，比较喜欢下面几个有干货的：

　　多数报告很精致（例如美女西乔那个工业设计方面的报告），有的报告很好玩（例如淘宝的赵昆利用电子商务数据分析中国女性的胸围增长趋势）。

　　反过来说，也有比较烦人的报告，一般都是各巨头（例如MS和IBM）派来的忽悠。在这么一个纯技术主题会议上，让很久没从事一线开发甚至缺乏基本技术Sense的管理或销售跑来“云”山雾绕，对口碑往往起反作用。

　　移动开发慢慢变成热点。连hchi哥都在计划写个pLabel的智能手机版。这次碰到Tinyfool，他正忙着筹办1月8日的“中国Cocoa移动开发者大会”。同志们可以利用这个机会和iPhone开发牛人交流。

　　这次的确有不少收获。遗憾的是缺乏系统级开发“硬核”方面的内容。例如没有C++、D或GO语言的讨论。大会重点是云，却没有Hadoop相关的报告。国内应该有很多做垂直搜索或专业搜索引擎的团队，例如我们pFind，我很希望能和这个圈子的朋友多交流。

　　最后，人民搜索和我毫无瓜葛，大家不要再挖苦俺了。

列书单.2010.12.8

Leave a reply

　　正等着坐火车。顺手把昨天去海淀图书城买书的单子列出来，因为11月欠得厉害，最近报复性购买，稍微多了些。很多还没看。带三四本去上海。

　　买到了麦克尤恩的《只爱陌生人》，钱穆的《中国历代政治得失》，黄仁宇的《从大历史的角度读蒋介石日记》，editions de paris《巴黎个性工作空间》，史蒂文·兰兹伯格的《性越多越安全》，卡尔文的《大脑如何思维：智力演化的今昔》，阿兰·德波顿的《机场里的小旅行》，奥姆斯特徳的《波斯帝国史》，凤凰书品的《我读2》，黄仁宇的《中国大历史》，席勒的《三十年战争史》。

　　只是没见到《三体3》和《1Q84 book3》，一直是“只闻楼梯响，不见人下来”。

去上海参加“软件开发2.0大会”

Leave a reply

　　马上要去上海。先参加12月9日的“软件开发2.0大会，然后去合作伙伴那里升级和调试pFind并行版。自从08年底最后一次去上海，时间飞快就过去了。很喜欢上海这座城市，一想到小杨生煎包就掉口水。期待与上海的朋友们聊天。

　　一年的工作即将收尾。等我再回到北京，pFind Studio 2.6就会正式发布。敬请期待。

　　我是08年初去上海时戏剧性地陷入低潮的。此后一路挣扎。今年开心地完成了几件大事（这个、这个、这个和这个），终于从大坑里爬出来了。这次再去上海，也算是故事首尾呼应吧。BOSS H今天开会评价我“最近三年工作风格上变保守了”。的确是谨慎了，这与工作具体需要和个人的心境都有点关系。等pFind Studio 2.6发布了，明年放松下来，着手更多探索性工作，尝试弄出些吓人的东西来。

生物信息和云

3 Replies

　　云计算在生物领域面临几个问题：首先是计算密集型和数据密集型的平衡，其次是授权管理和安全问题，第三是T级别甚至P级别海量数据的实时传输和分发。最近读了几篇相关论文，分享一下。

　　Clare Sansom刚发表在Nature Biotechnology上的Up in a cloud?这篇文章分析了美国市场上生物云计算的问题和趋势。云计算包含多种商业模式，目前亚马逊式的“公用云”租用已逐渐普及，租用计算资源的用户中生物领域占到了一定比例。相比传统的超级集群租用，这种形式优势更便宜更灵活，能做为对外服务的基础。但安全性和授权管理还是制药公司和生物研究单位的顾虑之一。

　　与此相关，Eric E. Schadt等人在Nature Reviews Genetics刚发表了一篇题为Computational solutions to large-scale data management and analysis的综述，更深入地对生物领域的云技术进行了汇总，介绍了超级计算机、网格计算、云计算和异构并行（GPU）技术在生物计算中的成功案例，并对比了其不同的应用特点。

　　同时，Joel T Dudley和Atul J Butte在Nature Biotechnology发表了一篇文章，题为In silico research in the era of cloud computing，主要从另外一个角度展开讨论。由于生物学研究越来越依赖大规模计算，同行间重复别人的工作面临着很多软件和计算问题。而可重复性（reproducible）是现代学术体系的基石。作者希望利用虚拟机技术提供同行评议时的可重复性，同时又能保护必要的知识产权和技术机密。

　　另外几篇，Michael C Schatz发表在Nature Biotechnology上的Cloud computing and the DNA data race，以及Monya Baker发表在Nature Methods上的Next-generation sequencing: adjusting to data overload，都主要涉及新的测序技术导致的数据剧烈膨胀。

　　还看了Sector/Sphere作者在SC09(The International Conference for High Performance Computing Networking, Storage, and Analysis)上的论文Lessons Learned From a Year’s Worth of Benchmarks of Large Data Clouds。如果看过Sector/Sphere最早的论文，再读这篇就比较轻松。这篇文章对Hadoop和Sector进行了更详尽的对比。相对源于Web搜索引擎的Hadoop，源于科学计算领域（在海量天体照片中搜索可能存在的褐矮星）Sector先天具有一些特点：例如C++比Java的性能优势；例如可跨数据中心运行的安全机制；再例如UDT协议（UDP-based Data Transfer Protocol）比TCP协议在海量数据传输分发方面的优势……

　　Sector/Sphere作者刚刚创业，建立了verycloud.com公司，提供云计算领域的咨询和定制开发。

　　一直希望建立pFind“专有云”，向Google一样提供行业数据处理的在线服务引擎。因此，除了领域算法，还需要掌握一整套软硬件维护和运营能力。这很难，但如果成功，则不可替代性很强。不仅仅可以避免传统软件的桌面维护，避开盗版，让反向工程模仿成本大大增加。

　　游戏产业放弃单机版转向网络云技术是一次成功的突围。生物信息能重复这个故事吗？

42区、话剧和书单

1 Reply

　　42区一开始就给我发了邀请。因为前些天实在太忙，没上去摸。刚在上面建好了自己的页面，并且在这个BLOG添加了友情链接（呵呵，刚想到BLOG搬家还得折腾）。这是教主开始创业以来的第三个产品，有美空网的痕迹，他没白待。我的42区里对自己的报价是：在线咨询30元，预约时间（北京）300元。比tinyfool少很多，自己觉得基本体现了我们之间的技术水平的差距。

　　老婆可怜我最近神经太紧绷，前些天带我去看雷子乐笑工厂的小剧场话剧《东直门天天向上》，感觉和孟京辉工作室的东西有差距。

　　好久没逛书店，感觉就像快没水喝的人。周末总算去买到了韩寒的《1988：我想和这个世界谈谈》、《可爱的洪水猛兽》和《杂的文》，梁柏力的《被误解的中国》，曾国藩的《挺经·冰鉴》，霍布豪斯的《自由主义》，张爱玲的《小团圆》。韩寒文字里那种清醒和绝望，真的越来越像鲁迅了。

控制思想

1 Reply

　　《三联生活周刊》10月的第41期中，有对麻省理工的专题系列采访。其中一篇提到Ed Boyden的大脑控制研究。他已经成功地利用激光控制老鼠的大脑神经反应：例如用绿光照射大脑左侧的运动皮层，老鼠就会往右转圈；再例如用绿光照射大脑的快感中心，老鼠就会待在一个地方不愿意离去。全球已经有300多家实验室使用这项技术。

　　看刘欣慈的《三体II：黑暗森林》时，对其中的“思想钢印”留下了很深的印象。但这毕竟是科幻小说。没想到这么快就见到类似的实际科研进展。

　　我很兴奋，和zhw讨论这件事：可以给大脑装上像《阿凡达》里纳美人一样的USB接口，像《黑客帝国》那样把自己的意识接入在线虚拟空间。结果她评价说：“邪恶的科学，你也是邪恶科学家的小帮凶”，汗！

　　技术本无好坏，《三联生活周刊》专访也说，Ed Boyden的研究固然可以用于控制人的思考，关掉士兵大脑的恐惧中心，让他们在战场上毫不犹豫地去送死；但它也能成功控制一只老鼠的癫痫症，重新激活另外一只瞎老鼠视网膜上的感光细胞，让它重见光明。原始部落的一个石斧，你同样面临这个选择：是砍树还是砍人。伦理和科学，从来都是互相影响的。

　　跑去搜索到Ed Boyden的BLOG，这家伙真是个天才，出生在MIT世家，老爸是政治学，老妈是生物化学，姐姐也是MIT毕业。他自己16岁上MIT，19岁拿到电子工程和计算机科学双硕士，然后跑到斯坦福学习脑神经学，32岁时已经是MIT媒体实验室的教授。

pFind引擎的第四代索引模块

Leave a reply

　　因为CNCP2010，同时也有些私事，最近很忙。live spaces又拆迁。所以BLOG节奏受影响。这周末陆续敲点流水帐。

　　首先要祝贺zhch的后缀数组论文经过一年历练总算被BMC Bioinformatics接收。相关专利也提交了。（在这之前，sun老师的ETD论文也发表了，BOSS H昨天说，今年一年组里发了6、7篇，快等于此前几年的总和了）。

　　pFind搜索引擎的索引技术一直不断传承和推进：dq老大最先奠定基础，推出IndexToolkit开源项目并在Bioinformatics发表Application notes；之后ly哥凭借不懈努力吃透了倒排技术，重构了索引模块，发表论文申请专利；接下来zhch凭借ACM金牌的强悍算法功底继续前进，先是将倒排索引的数据容量上限提高了几个数量级，然后又另辟蹊径引入后缀数组技术，颠覆了前人的工作。

　　年底推出pFind 2.6之后，我们将着手把zhc的模块从develop分支移到release分支。这是pFind的第四代索引了。当然这只是刚开头，它必须通过全面严厉的测试，才能证明自己有资格替代老版本索引，在工业级产品中担当主力。

计算蛋白质组学研讨会和大S结婚

1 Reply

　　下周一，CNCP2010的会前培训就要开始了。pFind Studio的测试和改进一直在高强度进行，10月份Bug管理系统里Fixed的Bug创造了历史纪录；11月虽然刚过一周，修正和改进的条目的数量已经相当可观，看来这个月再创新高没悬念。除了准备软件，还负责CNCP2010的官方邮件，从确认住宿、介绍交通到提醒南方参会者加衣保暖，上千封邮件。

　　一方面，不收注册费，拒绝商业赞助；另外一方面，筹备工作细致到了偏执（例如检查会场所有电源和插线板的插口，备份三台投影仪和三台笔记本）。外人大多难以理解。

　　的确辛苦，昨晚22:00回家，疲惫不堪，地铁上人又多，突然有股砸破玻璃跳出车窗外的冲动。熬到家门口，还没掏钥匙门就开了，老婆接过笔记本，老妈打开羊肉火锅的电源，开水滚出香味儿，暖烘烘的。

　　最近技术上的心得都没精力分享。说点工作外的：大S要出嫁。今天在最新一期《经济观察报》第54版看到一篇《某公子》很好玩。财经写手果然比娱乐版的层次高，写八卦都更好看些。文笔出色，叙事吸人，只是结论实在有些冷酷。用张爱玲笔下葛薇龙做比，有些狠。

即将到来的pFind Studio 2.4.2版，还有CNCP2010大会

Leave a reply

　　还在单位加班，在等一个漫长的测试进程结束，登录上来敲点BLOG。

　　之前说过，下半年的一个重点就是提高pFind Studio的产品质量。七月份的2.4.1版还是不够令人满意，最近除了忙知识产权的工作以外，就是逼迫几个主力继续不断测试，修改BUG，提高用户易用性。BugFree里的统计曲线不断创造新高，几位辛苦了。pFind Studio 2.4.2版比计划拖延了将近一个月，昨天提交了pFind Studio 2.4.2 RC3供组里验收，希望这次不会被打回来重写作业。当然，这次我比较有信心能通过投票。

　　越是到这个阶段，越觉得熊节的这篇《把事情做完》有道理。

　　这个版本发布，刚好可以赶上计算所主办的“首届中国计算蛋白质组学研讨会”，这次会议邀请了众多国内最出色的团队来作报告。为了保证质量和学术纯粹性，拒绝了很多公司的商业赞助。到目前为止，报名的踊跃程度大大超出了我们的想象，不得不更换原定的会场。提醒大家，尽管为了促进交流不收任何注册费，还是建议想参加的朋友提交参会回执，如果到时候不得不限制人数的话，不至于受影响。会前培训的名额已经快接近场地上限，大家要抓紧了。

　　请期待最新一版的pFind Studio 2.4.2，希望在11月的研讨会现场见到各位老朋友。

流水帐.2010.10.4

1 Reply

　　还没有确定是不是WordPress.com。办妥了会通告。先补前一段时间落下的内容。好久没写BLOG，不好意思。

　　9月份工作很紧张，终于把软件著作权、专利和商标的申请都搞定了。pFind并行版内容最终拆分为三个互相掩护的子专利，因为涉及到MapReduce技术，还特意和专利代理律师一起研究了有关资料，除了论文，还包括今年1月份刚刚公开的7650331号专利。这期间还注意到一条新闻：Google最新版引擎Caffeine已经放弃MapReduce架构。接下来补更多实验，要啃一个超过五百万张谱图的庞大数据集。偏偏碰到深腾7000停机修整，踅摸中……

　　最近不仅没精力写BLOG，也没空买书。前两天才抽出空来去了一趟中关村图书大厦，买到了爱德华·吉本的《罗马帝国衰亡史》、沈群的《美国也荒唐》、W.Bruce等的《搜索引擎》（也就是Search Engines: Information Retrieval in Practice的中文版）、周汝昌的《红楼小讲》、林语堂的《平心论高鹗》。

joyfire 王乐珩地雷

有事多Google，没事少上网

SD2.0和中国Cocoa移动开发者大会

列书单.2010.12.8

去上海参加“软件开发2.0大会”

生物信息和云

42区、话剧和书单

控制思想

pFind引擎的第四代索引模块

计算蛋白质组学研讨会和大S结婚

即将到来的pFind Studio 2.4.2版，还有CNCP2010大会

流水帐.2010.10.4