Tag Archives: 淘宝

淘宝数据盛典和ODPS

  工作开始累起来,周五开电话会直到晚上22:30。周六又开了一整天的会,遗憾地错过了童小军组织的“EasyHadoop应用开发者聚会”。《伯罗奔尼撒战争史》的第二篇读后感又拖延了,罪过罪过。

  自从来到阿里云,总被问:“在干啥?”。答曰:“ODPS”。又问:“ODPS是什么,能吃吗?”……这个,其实,之前已经在博客上透露过了

  淘宝数据分析团队的同学们做了这个浅显易懂的邪恶视频,充分展示了Big Data的商业潜力。如果想要更一本正经的市场分析,可以看看麦肯锡的这份报告,以及《福布斯》杂志的这篇报道。再深入一些,想了解如何租用ODPS服务对自己的网站进行数据挖据?看子楠和文志的这篇软文

从卫生巾说到生物云计算

  写一些技术感想,意识流,没中心,想到哪里写到哪里。

  12月12日,淘宝又一次大促销。一天时间不到,卖出去了三亿片苏菲。这是一个很恐怖的数字。随着淘宝占全中国零售额的比例一路超过5%,电子商务已经开始影响传统主体经济。

  体量足够大,就有数据可供挖掘了。

  例子一,去年到上海参加软件开发SD2.0大会,淘宝的数据可视化讲座,给出了女性内衣的尺码数据统计,平均值从前几年的A罩,迅速增大,目前居然达到了C罩杯。因此得到两个结论:<1>中国人的营养水平和肥胖率不断上升,<2>上淘宝买东西的女性年龄在增大,已经越过了婚育年龄均值点。

  例子二,2010年温总理去淘宝视察,马云的报告里说,由于阿里巴巴有真实的外贸订单数据,淘宝有真实的国内零售数据,所以可以据此预测未来半年的全国经济走势。那时候马云PPT里的预测,现在印证起来,相当准确。

  屁股决定上层建筑,有了数据金矿挖掘的利益驱动,相关的技术投资就会被重视,然后就构建出新的技术平台和商业模式来。Amazon的营业收入中,越来越大的比例源于计算和存储能力的对外租用,也就是云计算。它已经不知不觉变成了云计算市场的领袖,甚至威胁到了伟大的Google。

  回来再说我们pFind的事情。最近半年多lyz美女一直在开发pFind@hadoop。此前也讨论过生物信息云计算。

  首先用MapReduce创建离子索引还挺顺利,然后就开始写查询这一块。方案是利用HBase进行存储,利用Thrift进行结构化和远程调用传输。但性能一直是问题,hchi用C++写的单进程处理程序(把数据索引分块,逐个载入查询),居然和Hadoop版的64核集群的速度差不多。进行了大量的优化,并请教了在搜索引擎公司的Hadoop牛人,依然达不到期望。

  在很小的质谱数据集上,pFind就要发起接近百万次的离子查询,这种规模的并发,已经远远超出了HBase常见的应用方式。于是反思方案本身。HBase的特点是支持随机写入,引入了并发事务性管理机制。因此,它更合适需要增删改的online实时处理,其替代对象是传统的SQL关系型数据库。

  而对于全文搜索类的应用场景而言,其预计算索引一般只需要顺序批量写入,不必支持随机改和删除。所以可以直接把索引存入HDFS,自己实现查询。由于不用支持随机写入和删除。也就是几千行代码而已。最新2011.12期的《程序员》刊登了推特Nathan Marz的文章《如何打败CAP定理》,他们的方案是采用Elephant和Voldemort read-only这一类可以直接从Hadoop MapReduce中导出key/value的数据库。这些数据库都不支持随机写入,简洁使其鲁棒性特别好。这种方式不能更新数据,每次都需要全局重做。但生物数据库对实时更新并没有太高要求。

  (补:Guancheng大虾提示说,把Hadoop实现的版本跑在512甚至1024核上会不会比C++单线程版本快?把input size增加几倍的话Hadoop版本的Scalability会不会更好?)

  再记录一件事。大红大紫的redis的维护者刚刚拒绝了微软提交的补丁。补丁的目的是让redis可以在Windows系统下运行。拒绝的原因是Linux completely won as a platform to deploy software(作为工作软件的部署平台,Linux已经完胜win32)。维护者认为应该把精力集中在真正重要的问题上。

  这一期《程序员》杂志的企业软件专题里面,主编表达了与此相关的一些观点。最近五年以来,Java和C#这些语言逐渐不那么招人喜欢(看这个链接这个链接)。企业级开发、Windows开发的形象变得过时。像我这种有点年纪的程序员,难免总会有点三十年水流东三十年水流西的感慨。

  云计算是现在最热的buzzwords,小心,IT领域的大词,总会很快过时。

章文嵩的技术报告

  上周末,淘宝网基础软件研发部的负责人章文嵩来计算所做技术报告,一直想记录一下。最近三天在家里照顾病人,所以没顾上写BLOG。

  大约是十年前在AKA的网站认识了章文嵩和他的LVS。 那时候我刚刚接触开源,正在阅读Linux内核源代码,积累俺的《joyfire linux笔记》。当时LVS正在争取成为第一个汇入Linux内核的Made in China项目,我等粉丝狂热崇拜,《joyfire linux笔记》里有专门一章收录LVS技术资料。

  隔了这么久,章文嵩的外貌似乎没啥变化。这次报告主要介绍淘宝网的基础设施,例如分布式文件系统(TFS)、K/V缓存系统(TAIR)。细节可以参考幻灯

  章文嵩提到他们正在踅摸倒排索引等技术,研发上千亿规模的全文检索功能(淘宝网站现有40亿条目,每年翻一番)。另一个设想是图片搜索,预计2年初步可用:女孩子们可用3G手机拍摄商场里的衣服和鞋子,然后发送到淘宝网站,搜索类似的商品信息。

  章文嵩认为,在网络服务基础中间件领域,商业专有产品性能无法令人满意,淘宝正在实施开源战略,一方面用开源产品把现有平台逐步替换掉,另一方面也对自主研发的基础设施进行开源。他们的TAIR刚刚开源,TFS 预计会在9月份开源。

  目前淘宝网平均一笔交易耗费0.4度电,可以煮熟4个鸡蛋。因此和Google一样也开始关心能耗问题,希望定制 低功耗的服务器。考虑到Memory Cache和Web Service等模块大都是I/O密集型的,对CPU主频要求不高,没必要安装最强悍的CPU。章文嵩抱怨INTEL只看重利润,漠视环保:淘宝希望大规 模采购ATOM处理器,得到的回答是“不符合公司战略”,不愿意ATOM挤占高端芯片的市场。最终选用了VIA处理器,关闭不必要的主板模块如USB,能 耗大大降低,实现了无风扇,依然有不错的处理吞吐量(单机柜6Gbps)。