去Intel测试、下一版的昵称

1 Reply

　　连续加班。筋疲力竭，死扛，晚上总做噩梦惊醒。今天全天开会，16人次讲PPT。晚上聚餐，算是告一段落了。　　前天应邀去Intel公司测试pFind并行版。是国贸旁边的那个实验室，就在央视新楼对面。公司的落地窗正是看焰火的好地方。ch博说，09年元月十五，他就在办公室。　　pFind表现正常。因为时间所限，测试参数不能设置得过“重”。以前提过，随着并行规模的扩大，pFind集群开始出现I/O密集型应用的特点。下一步的千核集群，Master节点应改成异步模式，很多步骤要用MapReduce。　　从08年底开始做pFind并行计算，逐渐加深理解。现在看来，要兼顾“减少流程冗余”，“均衡负载”和“提高I/O效率”三个要素，才能获得好性能。其实，明确这三个问题，比解决它们更重要。如果RCM论文搞定了，就在BLOG里写写我们的解决方案。　　这次跟着高手学到不少。比如以前不知道用make -j参数，每次编译ACE，都得用三四十分钟。再如这次ch博推荐的paratera.com工具，对分析集群实时状态很有用。　　下一版的pFind内核还没规划，但是已经开始琢磨“昵称”了。按照我们的惯例，需要是科幻或动画角色。我强烈要求用Leonopteryx，《阿凡达》中的红色大鸟。

这一期小姬看片会很好玩

Hadoop in China 2009印象

流水帐.2009.11.11

1 Reply

　　压力很大，有段时间没有写BLOG的心境。修养不够，乱发火，还需要磨练，还需要反省，还需要成长。　　投稿Journal of Proteome Research，被传说中的副主编不经同行评审直接拒稿。yb打电话聊天，安慰：有些人就是怀疑，认为中国大陆做不出那么出色的科研成果。其实还好，还好。宁愿相信是自己做得还不够牛。即使真涉及技术外的因素，是不是歧视，取决于你最终到底做成什么样。姚明得分超过30，巴克利就该kiss驴屁股，否则人家就是有先见之明。短暂抑郁，转投Rapid Communications in Mass Spectrometry。这次遇到的责任编辑还是06年投稿的那位，很快就进入peer review了。fy老大催着赶紧申请专利，否则文章一发表，就来不及了。　　瓶子哥在曙光5000A上测试，320核条件下，加速效率达到80%。欣慰。这段时间的交流，意识到随着分布式规模的扩大，pFind集群的特点逐渐向I/O密集型靠拢。也就是说越来越像web搜索引擎。明年要搞点MapReduce的尝试。另外购买4000块的昂贵显卡。一直在关注GPU在科学界的应用。生物制药、物理航天、天气地质、游戏娱乐……短时间出现了爆炸性的增长。计算机行业的一个有趣的特点就是，工业界常常跑在前面，搞出一些破坏性创新，给学术界造成了很大的压力。　　雪下得好大，积雪没过了鞋帮，咯吱咯吱的。大家注意身体，别H1N1。今天见到了好久没联系的jw。原来是班车11点还因为大雪堵在路上，他索性下车到我们这里交流。忙过这一阵，要去看看朋友们。当然，还是会逼着大家给pFind引擎提意见。　　在各种场合听到关于创业的讨论。创业当然主要跟钱有关，但是必须有一点钱以外的东西。Boss H说得对，一时的热情最容易消散。必须有点功利以外的理由，让自己在最痛苦时平静下来，坚持下去。　　douban.com在测试“豆瓣电台”，根据你的历史行为推荐音乐。上来就给我推荐了几首没听过的张震岳、周杰伦和涅磐。查了查，豆瓣在招聘“算法和数据挖掘专家”。应聘要求包括：“热爱探索和钻研，相信算法能够改变人们的生活；极佳的逻辑分析能力和学习能力，善于应对各种智力挑战；熟悉海量数据处理和挖掘的基本算法, 或有高性能科学计算的相关经验”。

Beta技术沙龙：利用SNMP进行服务监控

重读Google老三篇

1 Reply

　　昨晚会议结束得太晚，没赶上末班地铁，只好打车回家，俺的银子呀wuwu~ 　　最近在读文献。上周过了几篇蛋白基因组学（proteogenomics）的天书，实在抓狂。这周的主题回到软件领域：大规模分布式计算。昨晚是Google老三篇（GFS、MapReduce和BigTable）的文献讲评，瓶子哥顺便讲了讲Google Cluster，我又带了几句Chubby论文。讨论很热烈，结果就说多了。　　我负责主讲BigTable，这次细读，发现以前读的时候忽略了很多细节。　　比如，BigTable使用bloom filter算法进行元数据cache加速。bloom filter有单边特性（它说不存在的，必然不存在；它说存在的，也许有小概率错误），这的确最适合cache这种场合。　　再如，google的分布式锁服务Chubby，在GFS和BigTable中都起到关键作用。在同步控制方面，GFS和BigTable设计思路几乎一致，都是用Chubby对master节点的元数据条目加锁，但具体数据服务节点（GFS叫chunk seriver，而bigtable叫tablet server）的同步正确性，需要客户端自己来保证。这样设计的目的很明确：尽可能保证全局服务的简洁高效，防止master节点成为瓶颈，这对大规模的分布式场景是非常重要的；当然，副作用就是客户端程序的要求更高。　　BigTable的一个重要应用是Google Analytics。另外进展很快的个性化搜索也用BT来存储用户历史和参数。之前发布的Google App Engine的python存储API，有很明显的BigTable痕迹。　　身边已经开始有人从Amazon和Google租用云计算能力了，新概念被接受的速度超出我的想象。

Google App Engine视频

1 Reply

　　Google App Engine不顾俺三番五次申请，就是不给试用帐号。郁闷呀。　　这里有一段视频，演示了简单的Google App Engine开发步骤。尤其是用GQL调用传说中的MapReduce海量分布式存储，看得俺直掉口水。趋势不可逆转，很快多数软件都会以ASP（Application Service Provider）方式提供服务。我很想知道微软首席架构师Ray Ozzie看到这东西是什么感觉。　　按一般观点，类似俺们pFind这种计算密集型应用，核心模块必须使用C/C++ API，否则慢得难以忍受。然而，一旦基础架构的分布式规模达到Google所谓的“云计算”这种级别，就算有几十万张谱，也可以充分地分而治之，被分解到巨大的PC Farm里，让集群节点一对一PK，甚至进一步按蛋白数据库再细分任务。这种情况下，即使单个节点的线性效率稍差，也可以接受，可能用Python就够了（对比：按我们现在的经验，没经过精心优化的Matlab代码鉴定一张质谱大约5分钟，当然可以进一步采用各种优化加速手段，例如psyco）。到时候，最主要的速度限制也许就来自网络带宽，上传多少即时鉴定多少。　　未来某天的软件创业故事：逃课的小孩在大学宿舍里编写了一款网路游戏（比如，也许是跑在iPhone或Android上的多人联机MMORPG），上传到Google App Engine，再到常去的论坛发个帖子，邀请大家来试玩，结果这个游戏一炮而红，Google和中国电信作为基础服务提供商，对利润进行分成。这个故事不会很快变成现实，但是也不会很慢，技术演化总是被低估。

多核时代

1 Reply

　　年初Intel发布了试验性的80核CPU。16核龙芯正在计划投入实用。其实尚在开发中的最新一代龙芯（GodsonT）走得更远。春节前，生物信息组的代码在上面试跑过一次，都把我吓傻了，他们居然还觉得“达不到期望”，还在大改。IBM的千核CPU(Kilocore)也披露了。　　自从C++委员会主席Herb Sutter发表The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software，JAVA神童Rickard Oberg表示赞同后，软件业似乎一瞬间就进入了多核并发时代。从纯技术角度看，近五年最激动人心的创新是什么？不，不是.net或AJAX，而是GFS和MapReduce。

Bigtable论文

1 Reply

　　Google labs里刚贴出了Bigtable的论文：Bigtable: A Distributed Storage System for Structured Data。立刻引起很多讨论。很关注这个话题。在Blog发表了不少与此有关的讨论，搜索了一下，感觉这些观察和思考是有连续性的。把它们都列出来： 2005/11/9：推荐书籍资料 2005/11/23：技术和应用 2005/12/11：Google你的基因 2006/2/15：BigTable和生物信息 2006/4/10：Google的算法 2006/6/11：几篇关于MapReduce的中文资料　　最近会看看Google Map卫星地图上的中关村，所有标志性建筑都清晰可见，也能找到我住的小区单元楼和工作的大厦。原来每天就活在这么一个格子里。

joyfire 王乐珩地雷

有事多Google，没事少上网

Search Results for: MapReduce

去Intel测试、下一版的昵称

这一期小姬看片会很好玩

Hadoop in China 2009印象

流水帐.2009.11.11

Beta技术沙龙：利用SNMP进行服务监控

推荐Resys Group

重读Google老三篇

Google App Engine视频

多核时代

Bigtable论文