Tag Archives: 飞天

开发者大会现场印象:5K、华大基因和AmyPI

  上周跑到杭州出差,主要是参加阿里云开发者大会。ODPS临近对外开放,所以想了解一下生态环境。好玩的东西很多,先写两个:

5K集群和华大基因

  2013年8月,阿里云的飞天分布式平台成功实现单集群5000台、同时ODPS实现了多集群跨机房计算。国际上仅有Google、Facebook在内的屈指可数的几家公司拥有这样的技术!而5000节点单集群拥有的计算规模无疑是惊人的:

  · 10万核的计算能力
  · 100PB存储空间
  · 可处理15万并发任务数
  · 可承载亿级别文件数目
  · 100TB 排序30分钟完成,是现有世界纪录的两倍以上

  9月,阿里云把其中一个5K集群拿出来,搞了一次开发者ODPS体验。这是全球范围内第一次把如此强大的计算能力以公共服务方式分享给开发者。 参加的团队基于ODPS和5K集群都做出了很多有趣的成果。例如CSDN利用5K集群对人群标签进行数据挖掘。

  而我最感兴趣的是华大基因在生物信息领域的开发工作。华大研究院的牛人们ODPS上实现了两个大规模的算法。其中一个是MapReduce的,另外一个短基因拼接图算法使用到了ODPS Graph Task编程接口(类似Google Pregel的BSP编程模型)。两个算法都取得了非常好的效果。这次大会华大基因的同学们做了报告,台下一片膜拜。他们也因为这次的工作,获得了5k体验的最佳工作奖。

  这次会上见到华大基因的陈钢博士真人,聊了不少。希望有机会业务合作。

  顺便提一下,自从华大基因收购了CG,美国的竞争对手就开始恐惧。如果明年华大上市成功,这个领域就会热起来,像当年的新浪。华大加油!

AmyPI

  这次开发者大赛前20的产品有专门的展台,我跑去逛了一圈,很多东西都很有趣。其中“AmyPI市场”引起了我的兴趣,这是一个帮助云服务管理API架构,并提供计量计费服务的独特产品。这种有深度的东西出来了,说明阿里云的生态系统真的建立起来了。我就和展台上的负责人聊了一段。

  说起来还挺有趣,我第一次和AmyPI负责人聊,忘记交换名片了。后来又路过他们展台,就把自己的名片递过去。当时看那位负责人在忙着和别人交流,就没打搅他。

  过一会儿他打电话找到我,问有什么事,我很奇怪,“我们刚才聊了好久,你不记得了?”

  人家笑了,“你一定是和我弟弟聊的……”

  汗,原来是双胞胎一起创业,真的分不出来谁是谁。

  最终AmyPI得到了云峰奖,银杏谷资本还现场签约投资他们,恭喜恭喜!希望这个产品能不断发展。希望出现更多AmyPI这种有技术含量的、专注而深入的专业级服务。

由背包兔谴责盛大云说起

  盛大云故障的事好像越闹越大,背包兔今天在微博里谴责盛大说:

     同时我们严厉谴责盛大这种用普通无备份的虚拟主机来冒充能数据备份的云主机,是一种彻底的欺诈行为!

  对于云主机的磁盘技术,存在不同的方案和思路,做些分析。

  亚马逊EC2的方式是采用本地磁盘作为系统盘,然后再挂上S3云存储作为数据盘。这样做的好处是系统盘会有很高的IO性能,同时节省成本。但也面临着一些风险,如果系统盘损坏了就有可能无法恢复。盛大在技术方案的选择上,照搬了亚马逊。盛大云的本地磁盘应该是做了RAID,这次也确实比较背,同一个机器上多块磁盘都同时坏了。

  而阿里云ECS所有的存储都放在飞天分布式平台上,也就是说无论系统盘还是数据盘,都是云存储,会有多份备份。同时阿里云ECS还会定时自动备份镜像。这样做的好处是安全性得到很大的保证,一旦有磁盘损坏就能自动秒级迁移到其他副本上,如果运气很差多份拷贝都坏了(估计比被雷劈中概率还要小上百倍),还可以回滚到此前的历史镜像。也正因为这样,阿里云的市场运营团队才有胆子公开宣传:发生故障给予100倍赔偿。

  当然阿里云的技术方案是有代价的:首先系统盘的IO就不会那么出色,其次造成的成本压力比较高。技术团队一直在对云存储进行大量的优化,已经取得了很好的进展,申请了一些专利(完全自主开发的平台,相对拿来开源方案,就有这个好处,有一支队伍掌握自己的命运)。同时由于市场逐渐打开,销售额上去了,摊薄了前期投入的硬件成本,所以最近价格也逐渐降下来了。

  对于站长们来说,不管用的是哪一家云,还是建议能更深入吃透云背后的技术原理,设计自己的方案。例如这次事故,如果预先把应用程序和关键数据分开,把关键数据设置放在云磁盘里,可能受到的影响就小一些。有能力开发脚本的,还应该开发一些定时备份的工具。