Tag Archives: 离线处理

百度技术沙龙:海量数据处理技术

  今天去参加InfoQ举办的百度技术沙龙,主题是海量数据处理技术解析。在开始之前,看到这个视频《盒子里的梦想》,觉得拍得挺有意思。

  第一个讲演者杨栋,在计算所的时候就认识。当时他是曙光5000分布式文件系统的主力开发者。到了百度以后,就成为分布式系统方面的主力。在很多技术交流会上都有报告。这次的PPT重点是Hypertable的各种性能优化。他特别强调profiling的重要性,我对此深有体会。

  第二个讲演者徐振华,是58同城(58.com)云平台的技术负责人。尽管这个神奇的网站规模小于百度,但是报告内容还是有不少实践方面的干货的。其中一个案例是关于离线处理的数据统计应用的。我对此特别感兴趣,报告下来也和他做了一点交流。

  后来计算所的查礼研究员也做了分享。提到了HIVE里面RCFile的技术细节。刚好最近正在了解阿里云ODPS内核里面的类似数据结构。

  转产品经理以后,每天都是大量邮件、电话、会议,交流非技术的业务和人的问题。即使出来参加活动,也是车库咖啡面向创业者。有一阵没参加比较纯粹的技术沙龙了,心情很复杂呀,呵呵。