Monthly Archives: December 2010

joyfire的博客从spaces live搬到这里

  计划从http://joyfire.spaces.live.com搬家过来,这一篇是测试。

  前一段忙于CNCP2010pFind Studio 2.6的发布,没顾上BLOG。因为整理5年的文字、安装配置、修复软件漏洞等事务需要一些时间,烦请等待。目前这个IP,似乎在国内有些运营商处被墙。请朋友们提醒我,必要时更换其他主机。

  感谢您的支持,我会继续写下去。

欢迎贡献自己PC空余时间,帮助CAS@home计划

  办公室里的大多数PC,70%时间并没有用于工作。CPU空转不仅仅浪费能源,对于每过18个月就折旧一半的电脑设备来说,也是一种巨大硬件投资的浪费。另一方面,很多科学家苦于没有足够的计算资源。如果能利用用户离开工位的电脑空闲帮助科学家做计算,就能一举两得。

  最早实现这一设想的是伯克利大学“在家寻找外星人计划”(SETI@home)。只要下载一个屏保程序并安装,当你一段时间不碰自己的PC,进入屏保模式,程序就会自动从网站上下载天文无线讯号进行数据分析,破译可能存在的智能生物信息。如果主人回来,屏幕保护程序会中断并保存,不影响你继续自己的正常工作。

  这一模式在生物制药领域最成功的案例是斯坦福大学的Fold@home项目, 到2010年全球加入该计划的志愿计算机的CPU个数已经超过35万个,其中Windows用户人数最多,PS3游戏机用户占第二,Mac OS用户占第三,Linux用户第四……此外还有大量高端GPU用户。成千上万普通用户的PC组成了虚拟的超级计算机,其计算能力丝毫不比那些每小时耗电 费用达到几十万元的超级计算机差。利用志愿者贡献出来的计算能力,科学家们已经发现了十几种治疗癌症和其他疑难杂症的可能药物靶点,发表了上百篇相关论 文。

  CAS@home是中国自己的志愿计算 项目,是在CERN(欧洲粒子物理研究所)研究员、中国科学院外国特聘研究员Francois Grey的帮助下于2010年开始启动的。目前运行在CAS@home上的蛋白质结构预测应用软件是由中科院计算所生物信息组研究员卜东波等人开发的,依 据蛋白质结构联配时出现的short-cut现象提出的一种高效的结构预测算法。

  目前参与CAS@home的志愿者超过2000。欢迎大家贡献自己PC空余时间,帮助科学家的研究,为战胜疾病提供力量。

创业者加油!

  经济危机前有朋友创业,写过BLOG祝好运。这两年身边不断有人下海

  刚刚听说本科同班同学zp和xjm两人正准备创业。虽然表面上毕业后的发展路径有所不同(一个出国留学,一个进入大国企),但最终殊途同归。说到底,都是坚持做技术,同时又有自己想法的人。

  他们公司名叫引众科技,主要提供企业虚拟化产品。例如Instant Cloud 2.0可以用于搭建类似EC2的虚拟主机。

  个人关心的是针对软件研发测试的解决方案。从pFind Studio产品开发现状来看,最头痛的是测试不同平台环境,例如不同版本操作系统:Windows和Linux的各种版本,32位/64位,中英文等 等。反复把各种OS版本在物理电脑上安装或恢复,这个测试成本是不可接受的。结合虚拟化和集成测试(CI),用无人值守的方式依次调出各种操作系统的虚拟 机副本,安装软件测试最终生成报告,这是大势所趋。

  进一步,对许多小团队来说采购软硬件还是经费不足。如果能解决安全信任问题,就可以采用资源租用的方式在互联网上提供云服务。我和zp聊天时,他们已有这个想法,但必须先看市场需求。

  听到老朋友创业很欣喜,又是有技术含量支撑的,就更值得顶一下。加油!

SD2.0和中国Cocoa移动开发者大会

  感谢Boss H的支持,我刚去上海参加了2010软件开发2.0大会。听的报告里,比较喜欢下面几个有干货的:

  多数报告很精致(例如美女西乔那个工业设计方面的报告),有的报告很好玩(例如淘宝的赵昆利用电子商务数据分析中国女性的胸围增长趋势)。

  反过来说,也有比较烦人的报告,一般都是各巨头(例如MS和IBM)派来的忽悠。在这么一个纯技术主题会议上,让很久没从事一线开发甚至缺乏基本技术Sense的管理或销售跑来“云”山雾绕,对口碑往往起反作用。

  移动开发慢慢变成热点。连hchi哥都在计划写个pLabel的智能手机版。这次碰到Tinyfool,他正忙着筹办1月8日的“中国Cocoa移动开发者大会”。同志们可以利用这个机会和iPhone开发牛人交流。

  这次的确有不少收获。遗憾的是缺乏系统级开发“硬核”方面的内容。例如没有C++、D或GO语言的讨论。大会重点是云,却没有Hadoop相关的报告。国内应该有很多做垂直搜索或专业搜索引擎的团队,例如我们pFind,我很希望能和这个圈子的朋友多交流。

  最后,人民搜索和我毫无瓜葛,大家不要再挖苦俺了。

列书单.2010.12.8

  正等着坐火车。顺手把昨天去海淀图书城买书的单子列出来,因为11月欠得厉害,最近报复性购买,稍微多了些。很多还没看。带三四本去上海。

  买到了麦克尤恩的《只爱陌生人》,钱穆的《中国历代政治得失》,黄仁宇的《从大历史的角度读蒋介石日记》,editions de paris《巴黎个性工作空间》,史蒂文·兰兹伯格的《性越多越安全》,卡尔文的《大脑如何思维:智力演化的今昔》,阿兰·德波顿的《机场里的小旅行》,奥姆斯特徳的《波斯帝国史》,凤凰书品的《我读2》,黄仁宇的《中国大历史》,席勒的《三十年战争史》

  只是没见到《三体3》和《1Q84 book3》,一直是“只闻楼梯响,不见人下来”。

去上海参加“软件开发2.0大会”

  马上要去上海。先参加12月9日的“软件开发2.0大会,然后去合作伙伴那里升级和调试pFind并行版。自从08年底最后一次去上海,时间飞快就过去了。很喜欢上海这座城市,一想到小杨生煎包就掉口水。期待与上海的朋友们聊天。

  一年的工作即将收尾。等我再回到北京,pFind Studio 2.6就会正式发布。敬请期待。

  我是08年初去上海时戏剧性地陷入低潮的。此后一路挣扎。今年开心地完成了几件大事(这个这个这个这个),终于从大坑里爬出来了。这次再去上海,也算是故事首尾呼应吧。BOSS H今天开会评价我“最近三年工作风格上变保守了”。的确是谨慎了,这与工作具体需要和个人的心境都有点关系。等pFind Studio 2.6发布了,明年放松下来,着手更多探索性工作,尝试弄出些吓人的东西来。

生物信息和云

  云计算在生物领域面临几个问题:首先是计算密集型和数据密集型的平衡,其次是授权管理和安全问题,第三是T级别甚至P级别海量数据的实时传输和分发。最近读了几篇相关论文,分享一下。

  Clare Sansom刚发表在Nature Biotechnology上的Up in a cloud?这 篇文章分析了美国市场上生物云计算的问题和趋势。云计算包含多种商业模式,目前亚马逊式的“公用云”租用已逐渐普及,租用计算资源的用户中生物领域占到了 一定比例。相比传统的超级集群租用,这种形式优势更便宜更灵活,能做为对外服务的基础。但安全性和授权管理还是制药公司和生物研究单位的顾虑之一。

  与此相关,Eric E. Schadt等人在Nature Reviews Genetics刚发表了一篇题为Computational solutions to large-scale data management and analysis的综述,更深入地对生物领域的云技术进行了汇总,介绍了超级计算机、网格计算、云计算和异构并行(GPU)技术在生物计算中的成功案例,并对比了其不同的应用特点。

  同时,Joel T Dudley和Atul J Butte在Nature Biotechnology发表了一篇文章,题为In silico research in the era of cloud computing, 主要从另外一个角度展开讨论。由于生物学研究越来越依赖大规模计算,同行间重复别人的工作面临着很多软件和计算问题。而可重复性 (reproducible)是现代学术体系的基石。作者希望利用虚拟机技术提供同行评议时的可重复性,同时又能保护必要的知识产权和技术机密。

  另外几篇,Michael C Schatz发表在Nature Biotechnology上的Cloud computing and the DNA data race,以及Monya Baker发表在Nature Methods上的Next-generation sequencing: adjusting to data overload,都主要涉及新的测序技术导致的数据剧烈膨胀。

  还看了Sector/Sphere作者在SC09(The International Conference for High Performance Computing Networking, Storage, and Analysis)上的论文Lessons Learned From a Year’s Worth of Benchmarks of Large Data Clouds。如果看过Sector/Sphere最早的论文, 再读这篇就比较轻松。这篇文章对Hadoop和Sector进行了更详尽的对比。相对源于Web搜索引擎的Hadoop,源于科学计算领域(在海量天体照 片中搜索可能存在的褐矮星)Sector先天具有一些特点:例如C++比Java的性能优势;例如可跨数据中心运行的安全机制;再例如UDT协议(UDP-based Data Transfer Protocol)比TCP协议在海量数据传输分发方面的优势……

  Sector/Sphere作者刚刚创业,建立了verycloud.com公司,提供云计算领域的咨询和定制开发。

  一直希望建立pFind“专有云”,向Google一样提供行业数据处理的在线服务引擎。因此,除了领域算法,还需要掌握一整套软硬件维护和运营能力。这很难,但如果成功,则不可替代性很强。不仅仅可以避免传统软件的桌面维护,避开盗版,让反向工程模仿成本大大增加。

  游戏产业放弃单机版转向网络云技术是一次成功的突围。生物信息能重复这个故事吗?