天河 | joyfire 王乐珩地雷

　　在知乎上回答了一个问题“有了分布式计算平台后，像天河这种大型机还有存在的必要吗？”

　　超级计算机其实也是分布式集群架构，和普通集群很类似，编程模型都是MPI、Mapreduce那一套。稍有不同的是：

　　1.超级计算机用infiniband背板提高各节点间的网络IO，常规分布式集群一般都是千兆、万兆网卡。
　　2.超级计算机一般会配高档的磁盘阵列，而GFS+Mapreduce方案底层基于挂在各节点上的普通硬盘。
　　2.超级计算机会使用更先进的CPU和GPU，更多内存。
　　3.由于发热强劲，很多超级计算机采用水冷。

　　从这些细节可以看出：

　　1.超级计算机更适合计算密集型作业，如果用MPI算核物理、天体物理、蛋白质折叠、渲染《阿凡达》、求解普通PC上需要几千万年的迭代方程，那么就应该用超级计算机。反过来，分布式集群Mapreduce适合IO密集型的作业，加上成本低，可以把集群规模搞得很大，因此最适合扫描过滤海量的数据，例如互联网行业的经典应用：为搜索引擎创建全网Web页面的索引。

　　2.超级计算机造价更昂贵，维护成本也高，甚至每小时电费就得上万元。记得我以前做蛋白质搜索引擎的时候，在某台国内最大的超级计算机之一跑过一个80分钟的job，花了老板5000多块上机费（因为我们有项目合作，人家已经给我们打了很低的折扣了）。不过这些作业用MapReduce在普通分布式集群上跑，跑了好几天。

　　云计算是建立在廉价分布式硬件+牛B的软件系统设计上，在商业上越来越成功。所以正在抢占传统超级计算机的用户市场。例如阿里云刚刚和国内的动画公司合作渲染出来的《昆塔》，计算量是阿凡达的四倍。不过就我所知，各大传统超算中心其实依然是排队、忙不过来的。随着国内经济的升级，很多造船、石油、材料、生物、天体物理、军事领域的计算需求都很强烈，这一类计算密集型任务，性能和时间往往比成本更重要。

joyfire 王乐珩地雷

有事多Google，没事少上网

Tag Archives: 天河

天河这种大型机还有存在的必要吗？

天河1号抢在了曙光6000的前头