Monthly Archives: August 2010

竖起耳朵听

  2005年那几个人说美国的金融杠杆太高,不可持续,要出事。当时我想,理论分析的确符合逻辑,但真会那么快吗,报纸上美国经济的新闻都是一片大好。后来的事情证明他们说对了。所以当那几个乌鸦嘴开始警告中国过度迷信凯恩斯,难免通货膨胀,就要竖起耳朵仔细听了。

话剧和哀悼

  今天全国哀悼舟曲遇难同胞。我生长于甘肃,心情更加沉重。希望死者安息,生者释然。

  昨晚去蜂巢看孟京辉工作室的小剧场话剧《两只狗的生活意见》。按原剧本,最后“旺财”应该唱一首歌的,但戏剧提前结束,演员上台严肃告知周日停演哀悼:甘肃、四川又降暴雨,多人遇难,汶川映秀刚建成的城区又被改道的岷江淹没。

  昨天观众非常多,蜂巢剧场完全塞满了。这一版扮演“来福”的新人王印,是北京舞蹈学院大三学生,90后。散场后买了一本《孟京辉先锋戏剧档案》

  孟京辉的话剧里,很想看刘烨和王珞丹演的《琥珀》,希望以后还有机会。

Sector&Sphere

  大约一个月前读了Sector and Sphere: The Design and Implementation of a High Performance Data Cloud这篇论文。后来在组会上做了文献讲评。一直想BLOG分享,今天抽空补上。

  Sector/Sphere可以看作与GFS/MapReduceHadoop竞争的另一种云计算的基础设施。相对于Hadoop,它的特点是提供了更好的性能和安全性。如果云计算集群跨越不同地理位置的多个计算中心,Sector/Sphere的优势就能得到最大体现。从Terasort结果来看,同等条件下,其性能比Hadoop高出不少

  之所以能有这么好的性能效果,除了Sector/Sphere是用C++实现(而Hadoop是用Java)的天然优势以外,数据传输使用UDT协议(而不是常规的TCP)是一个独特之处。关于UDT协议的技术细节可以参考这篇论文,这项技术获得了2006、2008和2009三年的High Performance Computing, Networking, Storage, and Analysis会议的Bandwidth Challenge Winner

  因为有了UDT的独特创新,Sector/Sphere在数据吞吐方面就有了很强的核心竞争力。论文里提到:典型的Web应用,例如搜索引擎查询一个关 键词,尽管计算过程涉及很大规模的数据I/O查询,但是算法的输入和输出的消息尺寸本身是相对较小的。而对于典型的科学计算任务,输入输出数据本身往往也 很庞大,例如作者自己从事的天文学项目SDSS中,要先输入几十T的天文望远镜照片,再从中分析寻找褐矮星。这就要求面向这一类问题的云计算底层机制拥有更高的数据传输性能。

  在基于串联质谱的蛋白质鉴定中,海量数据的传输同样是瓶颈。这也是pFind集群版将要涉及云技术时,我对Sector/Sphere产生兴趣的主要原因。

  再列一些八卦信息。Sector/Sphere的第一作者Yunhong Gu拥有中国大陆的教育背景。而他所在的Oregon State University’s Open Source Lab被Network World杂志评选为美国10个最酷的网络实验室之一,入选原因就是研发出了Sector/Sphere。