盛大云故障的事好像越闹越大,背包兔今天在微博里谴责盛大说:
同时我们严厉谴责盛大这种用普通无备份的虚拟主机来冒充能数据备份的云主机,是一种彻底的欺诈行为! |
对于云主机的磁盘技术,存在不同的方案和思路,做些分析。
亚马逊EC2的方式是采用本地磁盘作为系统盘,然后再挂上S3云存储作为数据盘。这样做的好处是系统盘会有很高的IO性能,同时节省成本。但也面临着一些风险,如果系统盘损坏了就有可能无法恢复。盛大在技术方案的选择上,照搬了亚马逊。盛大云的本地磁盘应该是做了RAID,这次也确实比较背,同一个机器上多块磁盘都同时坏了。
而阿里云ECS所有的存储都放在飞天分布式平台上,也就是说无论系统盘还是数据盘,都是云存储,会有多份备份。同时阿里云ECS还会定时自动备份镜像。这样做的好处是安全性得到很大的保证,一旦有磁盘损坏就能自动秒级迁移到其他副本上,如果运气很差多份拷贝都坏了(估计比被雷劈中概率还要小上百倍),还可以回滚到此前的历史镜像。也正因为这样,阿里云的市场运营团队才有胆子公开宣传:发生故障给予100倍赔偿。
当然阿里云的技术方案是有代价的:首先系统盘的IO就不会那么出色,其次造成的成本压力比较高。技术团队一直在对云存储进行大量的优化,已经取得了很好的进展,申请了一些专利(完全自主开发的平台,相对拿来开源方案,就有这个好处,有一支队伍掌握自己的命运)。同时由于市场逐渐打开,销售额上去了,摊薄了前期投入的硬件成本,所以最近价格也逐渐降下来了。
对于站长们来说,不管用的是哪一家云,还是建议能更深入吃透云背后的技术原理,设计自己的方案。例如这次事故,如果预先把应用程序和关键数据分开,把关键数据设置放在云磁盘里,可能受到的影响就小一些。有能力开发脚本的,还应该开发一些定时备份的工具。