Sector&Sphere

  大约一个月前读了Sector and Sphere: The Design and Implementation of a High Performance Data Cloud这篇论文。后来在组会上做了文献讲评。一直想BLOG分享,今天抽空补上。

  Sector/Sphere可以看作与GFS/MapReduceHadoop竞争的另一种云计算的基础设施。相对于Hadoop,它的特点是提供了更好的性能和安全性。如果云计算集群跨越不同地理位置的多个计算中心,Sector/Sphere的优势就能得到最大体现。从Terasort结果来看,同等条件下,其性能比Hadoop高出不少

  之所以能有这么好的性能效果,除了Sector/Sphere是用C++实现(而Hadoop是用Java)的天然优势以外,数据传输使用UDT协议(而不是常规的TCP)是一个独特之处。关于UDT协议的技术细节可以参考这篇论文,这项技术获得了2006、2008和2009三年的High Performance Computing, Networking, Storage, and Analysis会议的Bandwidth Challenge Winner

  因为有了UDT的独特创新,Sector/Sphere在数据吞吐方面就有了很强的核心竞争力。论文里提到:典型的Web应用,例如搜索引擎查询一个关 键词,尽管计算过程涉及很大规模的数据I/O查询,但是算法的输入和输出的消息尺寸本身是相对较小的。而对于典型的科学计算任务,输入输出数据本身往往也 很庞大,例如作者自己从事的天文学项目SDSS中,要先输入几十T的天文望远镜照片,再从中分析寻找褐矮星。这就要求面向这一类问题的云计算底层机制拥有更高的数据传输性能。

  在基于串联质谱的蛋白质鉴定中,海量数据的传输同样是瓶颈。这也是pFind集群版将要涉及云技术时,我对Sector/Sphere产生兴趣的主要原因。

  再列一些八卦信息。Sector/Sphere的第一作者Yunhong Gu拥有中国大陆的教育背景。而他所在的Oregon State University’s Open Source Lab被Network World杂志评选为美国10个最酷的网络实验室之一,入选原因就是研发出了Sector/Sphere。

2 thoughts on “Sector&Sphere

  1. Pingback: joyfire 王乐珩 » 生物信息和云

  2. Pingback: joyfire 王乐珩 » 生物数据处理和分布式并行计算

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.