生物信息和云

　　云计算在生物领域面临几个问题：首先是计算密集型和数据密集型的平衡，其次是授权管理和安全问题，第三是T级别甚至P级别海量数据的实时传输和分发。最近读了几篇相关论文，分享一下。

　　Clare Sansom刚发表在Nature Biotechnology上的Up in a cloud?这篇文章分析了美国市场上生物云计算的问题和趋势。云计算包含多种商业模式，目前亚马逊式的“公用云”租用已逐渐普及，租用计算资源的用户中生物领域占到了一定比例。相比传统的超级集群租用，这种形式优势更便宜更灵活，能做为对外服务的基础。但安全性和授权管理还是制药公司和生物研究单位的顾虑之一。

　　与此相关，Eric E. Schadt等人在Nature Reviews Genetics刚发表了一篇题为Computational solutions to large-scale data management and analysis的综述，更深入地对生物领域的云技术进行了汇总，介绍了超级计算机、网格计算、云计算和异构并行（GPU）技术在生物计算中的成功案例，并对比了其不同的应用特点。

　　同时，Joel T Dudley和Atul J Butte在Nature Biotechnology发表了一篇文章，题为In silico research in the era of cloud computing，主要从另外一个角度展开讨论。由于生物学研究越来越依赖大规模计算，同行间重复别人的工作面临着很多软件和计算问题。而可重复性（reproducible）是现代学术体系的基石。作者希望利用虚拟机技术提供同行评议时的可重复性，同时又能保护必要的知识产权和技术机密。

　　另外几篇，Michael C Schatz发表在Nature Biotechnology上的Cloud computing and the DNA data race，以及Monya Baker发表在Nature Methods上的Next-generation sequencing: adjusting to data overload，都主要涉及新的测序技术导致的数据剧烈膨胀。

　　还看了Sector/Sphere作者在SC09(The International Conference for High Performance Computing Networking, Storage, and Analysis)上的论文Lessons Learned From a Year’s Worth of Benchmarks of Large Data Clouds。如果看过Sector/Sphere最早的论文，再读这篇就比较轻松。这篇文章对Hadoop和Sector进行了更详尽的对比。相对源于Web搜索引擎的Hadoop，源于科学计算领域（在海量天体照片中搜索可能存在的褐矮星）Sector先天具有一些特点：例如C++比Java的性能优势；例如可跨数据中心运行的安全机制；再例如UDT协议（UDP-based Data Transfer Protocol）比TCP协议在海量数据传输分发方面的优势……

　　Sector/Sphere作者刚刚创业，建立了verycloud.com公司，提供云计算领域的咨询和定制开发。

　　一直希望建立pFind“专有云”，向Google一样提供行业数据处理的在线服务引擎。因此，除了领域算法，还需要掌握一整套软硬件维护和运营能力。这很难，但如果成功，则不可替代性很强。不仅仅可以避免传统软件的桌面维护，避开盗版，让反向工程模仿成本大大增加。

　　游戏产业放弃单机版转向网络云技术是一次成功的突围。生物信息能重复这个故事吗？

3 thoughts on “生物信息和云”

joyfire 王乐珩地雷

有事多Google，没事少上网

3 thoughts on “生物信息和云”

Leave a Reply Cancel reply