昨天Hadoop in China 2009在计算所召开。有主场之利,就混进去听了。把印象最深的内容写一写。 总体感觉规模很大,组织相当严谨,内容具有多样性。一方面,Hadoop in China前身是开源社区的线下技术沙龙,骨子里带有草根性,相当多的报告都是年轻的一线工程师在讲实实在在的最新项目;另一方面,这次又请来一些拥有行业视角的大公司技术高层,分享了不少全局信息。 第一个超出期望的是中国移动研究院院长黄晓庆。原以为礼貌上请赞助单位发言,不差钱的央企,“大云”肯定是炒概念。没想到还真讲了些好玩的研发内容,甚至对Hadoop内核做了不少改进。正因为有实际工作而且打算开源,所以就有深入的思考: “下面是我对开源社区的建议。首先,Hadoop应该更全球性。很高兴看到72%的贡献来自Yahoo!,但这对Hadoop长远发展并不是最好的,Hadoop用户应该提供更多贡献。另外,希望建立基于开源社区的云计算规范标准,使应用不只绑定在某个特定平台上。”报告英文很流利,讲得台底下的 Yahoo!技术高层直点头。 来自Facebook的报告特别吸引人。除了技术本身,数据仓库这种应用场景也很酷。底层设施需要按照 ETL、数据挖掘和决策支持的特性进行调整,例如利用Hive支持SQL,以便商业分析人员使用。查了一下,已经有三篇论文引用Hive,都是比较顶级的会议。相对我个人而言,以往关注都限于搜索引擎范围内。这次意识到Hadoop已经被用于很多领域。 Cloudera帅帅的创业者(长发,山羊胡子,真的很Geek)列出了Hadoop的应用领域:像NTT KDDI和中国移动这类的电信公司用Hadoop分析用户信息,优化网络配置;美国供电局用Hadoop分析电网现状;包括VISA和JP摩根在内的金融公司用Hadoop分析股票数据;包括Amazon和ebay在内的零售商和电子商务公司也开始使用Hadoop……他还特别提到生物公司用Hadoop 进行DNA测序和分析。 有事错过了Google公司的报告Challenges in Data Processing in the Cloud。 下午Track很多,在分会场来回转移。之后主要听了下面几场: Hadoop at Facebook: Past, Now and Future (Zheng Shao@Facebook) Mumak — Using Simulation for Large-scale Distributed System Verification and Debugging (Hong Tang@Yahoo!) Monitoring Hadoop (Yunsong Huang@IBM) The Distributed Storage in the Search […]