Hadoop in China 2009印象

　　昨天Hadoop in China 2009在计算所召开。有主场之利，就混进去听了。把印象最深的内容写一写。

　　总体感觉规模很大，组织相当严谨，内容具有多样性。一方面，Hadoop in China前身是开源社区的线下技术沙龙，骨子里带有草根性，相当多的报告都是年轻的一线工程师在讲实实在在的最新项目；另一方面，这次又请来一些拥有行业视角的大公司技术高层，分享了不少全局信息。

　　第一个超出期望的是中国移动研究院院长黄晓庆。原以为礼貌上请赞助单位发言，不差钱的央企，“大云”肯定是炒概念。没想到还真讲了些好玩的研发内容，甚至对Hadoop内核做了不少改进。正因为有实际工作而且打算开源，所以就有深入的思考： “下面是我对开源社区的建议。首先，Hadoop应该更全球性。很高兴看到72%的贡献来自Yahoo!，但这对Hadoop长远发展并不是最好的，Hadoop用户应该提供更多贡献。另外，希望建立基于开源社区的云计算规范标准，使应用不只绑定在某个特定平台上。”报告英文很流利，讲得台底下的 Yahoo!技术高层直点头。

　　来自Facebook的报告特别吸引人。除了技术本身，数据仓库这种应用场景也很酷。底层设施需要按照 ETL、数据挖掘和决策支持的特性进行调整，例如利用Hive支持SQL，以便商业分析人员使用。查了一下，已经有三篇论文引用Hive，都是比较顶级的会议。相对我个人而言，以往关注都限于搜索引擎范围内。这次意识到Hadoop已经被用于很多领域。

　　Cloudera帅帅的创业者（长发，山羊胡子，真的很Geek）列出了Hadoop的应用领域：像NTT KDDI和中国移动这类的电信公司用Hadoop分析用户信息，优化网络配置；美国供电局用Hadoop分析电网现状；包括VISA和JP摩根在内的金融公司用Hadoop分析股票数据；包括Amazon和ebay在内的零售商和电子商务公司也开始使用Hadoop……他还特别提到生物公司用Hadoop 进行DNA测序和分析。

　　有事错过了Google公司的报告Challenges in Data Processing in the Cloud。

　　下午Track很多，在分会场来回转移。之后主要听了下面几场：

Hadoop at Facebook: Past, Now and Future (Zheng Shao@Facebook)
Mumak — Using Simulation for Large-scale Distributed System Verification and Debugging (Hong Tang@Yahoo!)
Monitoring Hadoop (Yunsong Huang@IBM)
The Distributed Storage in the Search Engine (Kun Zhang@Netease)

　　前几个报告都能在网上搜索到相关技术资料，不多写。

　　后一个报告介绍网易的封闭项目，也算是与Hadoop对照。网易在国内算是技术布局早的，几乎是一看到Google老三篇就立刻照着实现。报告前半部分讲如何选择不同的分布式存储设施。把分布式存储系统分为三类：类似GFS的，类似BigTable的，还有Key-value方式的。对于GFS这一类，提供接近Unix文件的API，适用于必须对数据进行顺序全扫描的应用场景；对于BigTable这一类，提供分字段索引排序，适合需要随机查找的应用；而对于Key-value这一类，强调响应速度，更适合当cache用。报告后一半都是案例，分享重点是解决问题的思路，而不是问题本身。

　　大会最后的Panel Discussion。从听众提问看，在国内Hadoop还有待普及，很多技术人员甚至不太熟悉开源基础。百度的Ruyue Ma提出，不要指望万能药方，每种技术方案都有适用区域，传统的MPI也有自己的独特优势，未必所有应用都必须移植到云平台上。多位嘉宾强调，第一关注点应该在于可拓展性，而不是性能。

　　顺便提一下，国内企业今年突然都开始投入分布式技术的研发。很多家公司同时打算或正在开发自己的GFS、MapReduce对应产品。我倒觉得，现在才动手的话，不如选择成熟的开源方案，这样招聘、培训和合作的成本较低。

joyfire 王乐珩地雷

有事多Google，没事少上网

Leave a Reply Cancel reply