Tag Archives: Sphere

生物信息和云

  云计算在生物领域面临几个问题:首先是计算密集型和数据密集型的平衡,其次是授权管理和安全问题,第三是T级别甚至P级别海量数据的实时传输和分发。最近读了几篇相关论文,分享一下。

  Clare Sansom刚发表在Nature Biotechnology上的Up in a cloud?这 篇文章分析了美国市场上生物云计算的问题和趋势。云计算包含多种商业模式,目前亚马逊式的“公用云”租用已逐渐普及,租用计算资源的用户中生物领域占到了 一定比例。相比传统的超级集群租用,这种形式优势更便宜更灵活,能做为对外服务的基础。但安全性和授权管理还是制药公司和生物研究单位的顾虑之一。

  与此相关,Eric E. Schadt等人在Nature Reviews Genetics刚发表了一篇题为Computational solutions to large-scale data management and analysis的综述,更深入地对生物领域的云技术进行了汇总,介绍了超级计算机、网格计算、云计算和异构并行(GPU)技术在生物计算中的成功案例,并对比了其不同的应用特点。

  同时,Joel T Dudley和Atul J Butte在Nature Biotechnology发表了一篇文章,题为In silico research in the era of cloud computing, 主要从另外一个角度展开讨论。由于生物学研究越来越依赖大规模计算,同行间重复别人的工作面临着很多软件和计算问题。而可重复性 (reproducible)是现代学术体系的基石。作者希望利用虚拟机技术提供同行评议时的可重复性,同时又能保护必要的知识产权和技术机密。

  另外几篇,Michael C Schatz发表在Nature Biotechnology上的Cloud computing and the DNA data race,以及Monya Baker发表在Nature Methods上的Next-generation sequencing: adjusting to data overload,都主要涉及新的测序技术导致的数据剧烈膨胀。

  还看了Sector/Sphere作者在SC09(The International Conference for High Performance Computing Networking, Storage, and Analysis)上的论文Lessons Learned From a Year’s Worth of Benchmarks of Large Data Clouds。如果看过Sector/Sphere最早的论文, 再读这篇就比较轻松。这篇文章对Hadoop和Sector进行了更详尽的对比。相对源于Web搜索引擎的Hadoop,源于科学计算领域(在海量天体照 片中搜索可能存在的褐矮星)Sector先天具有一些特点:例如C++比Java的性能优势;例如可跨数据中心运行的安全机制;再例如UDT协议(UDP-based Data Transfer Protocol)比TCP协议在海量数据传输分发方面的优势……

  Sector/Sphere作者刚刚创业,建立了verycloud.com公司,提供云计算领域的咨询和定制开发。

  一直希望建立pFind“专有云”,向Google一样提供行业数据处理的在线服务引擎。因此,除了领域算法,还需要掌握一整套软硬件维护和运营能力。这很难,但如果成功,则不可替代性很强。不仅仅可以避免传统软件的桌面维护,避开盗版,让反向工程模仿成本大大增加。

  游戏产业放弃单机版转向网络云技术是一次成功的突围。生物信息能重复这个故事吗?

Sector&Sphere

  大约一个月前读了Sector and Sphere: The Design and Implementation of a High Performance Data Cloud这篇论文。后来在组会上做了文献讲评。一直想BLOG分享,今天抽空补上。

  Sector/Sphere可以看作与GFS/MapReduceHadoop竞争的另一种云计算的基础设施。相对于Hadoop,它的特点是提供了更好的性能和安全性。如果云计算集群跨越不同地理位置的多个计算中心,Sector/Sphere的优势就能得到最大体现。从Terasort结果来看,同等条件下,其性能比Hadoop高出不少

  之所以能有这么好的性能效果,除了Sector/Sphere是用C++实现(而Hadoop是用Java)的天然优势以外,数据传输使用UDT协议(而不是常规的TCP)是一个独特之处。关于UDT协议的技术细节可以参考这篇论文,这项技术获得了2006、2008和2009三年的High Performance Computing, Networking, Storage, and Analysis会议的Bandwidth Challenge Winner

  因为有了UDT的独特创新,Sector/Sphere在数据吞吐方面就有了很强的核心竞争力。论文里提到:典型的Web应用,例如搜索引擎查询一个关 键词,尽管计算过程涉及很大规模的数据I/O查询,但是算法的输入和输出的消息尺寸本身是相对较小的。而对于典型的科学计算任务,输入输出数据本身往往也 很庞大,例如作者自己从事的天文学项目SDSS中,要先输入几十T的天文望远镜照片,再从中分析寻找褐矮星。这就要求面向这一类问题的云计算底层机制拥有更高的数据传输性能。

  在基于串联质谱的蛋白质鉴定中,海量数据的传输同样是瓶颈。这也是pFind集群版将要涉及云技术时,我对Sector/Sphere产生兴趣的主要原因。

  再列一些八卦信息。Sector/Sphere的第一作者Yunhong Gu拥有中国大陆的教育背景。而他所在的Oregon State University’s Open Source Lab被Network World杂志评选为美国10个最酷的网络实验室之一,入选原因就是研发出了Sector/Sphere。