Tag Archives: 淘宝

淘宝数据盛典和ODPS

　　工作开始累起来，周五开电话会直到晚上22:30。周六又开了一整天的会，遗憾地错过了童小军组织的“EasyHadoop应用开发者聚会”。《伯罗奔尼撒战争史》的第二篇读后感又拖延了，罪过罪过。

　　自从来到阿里云，总被问：“在干啥？”。答曰：“ODPS”。又问：“ODPS是什么，能吃吗？”……这个，其实，之前已经在博客上透露过了。

　　淘宝数据分析团队的同学们做了这个浅显易懂的邪恶视频，充分展示了Big Data的商业潜力。如果想要更一本正经的市场分析，可以看看麦肯锡的这份报告，以及《福布斯》杂志的这篇报道。再深入一些，想了解如何租用ODPS服务对自己的网站进行数据挖据？看子楠和文志的这篇软文。

从卫生巾说到生物云计算

7 Replies

　　写一些技术感想，意识流，没中心，想到哪里写到哪里。

　　12月12日，淘宝又一次大促销。一天时间不到，卖出去了三亿片苏菲。这是一个很恐怖的数字。随着淘宝占全中国零售额的比例一路超过5%，电子商务已经开始影响传统主体经济。

　　体量足够大，就有数据可供挖掘了。

　　例子一，去年到上海参加软件开发SD2.0大会，淘宝的数据可视化讲座，给出了女性内衣的尺码数据统计，平均值从前几年的A罩，迅速增大，目前居然达到了C罩杯。因此得到两个结论：<1>中国人的营养水平和肥胖率不断上升，<2>上淘宝买东西的女性年龄在增大，已经越过了婚育年龄均值点。

　　例子二，2010年温总理去淘宝视察，马云的报告里说，由于阿里巴巴有真实的外贸订单数据，淘宝有真实的国内零售数据，所以可以据此预测未来半年的全国经济走势。那时候马云PPT里的预测，现在印证起来，相当准确。

　　屁股决定上层建筑，有了数据金矿挖掘的利益驱动，相关的技术投资就会被重视，然后就构建出新的技术平台和商业模式来。Amazon的营业收入中，越来越大的比例源于计算和存储能力的对外租用，也就是云计算。它已经不知不觉变成了云计算市场的领袖，甚至威胁到了伟大的Google。

　　回来再说我们pFind的事情。最近半年多lyz美女一直在开发pFind@hadoop。此前也讨论过生物信息云计算。

　　首先用MapReduce创建离子索引还挺顺利，然后就开始写查询这一块。方案是利用HBase进行存储，利用Thrift进行结构化和远程调用传输。但性能一直是问题，hchi用C++写的单进程处理程序（把数据索引分块，逐个载入查询），居然和Hadoop版的64核集群的速度差不多。进行了大量的优化，并请教了在搜索引擎公司的Hadoop牛人，依然达不到期望。

　　在很小的质谱数据集上，pFind就要发起接近百万次的离子查询，这种规模的并发，已经远远超出了HBase常见的应用方式。于是反思方案本身。HBase的特点是支持随机写入，引入了并发事务性管理机制。因此，它更合适需要增删改的online实时处理，其替代对象是传统的SQL关系型数据库。

　　而对于全文搜索类的应用场景而言，其预计算索引一般只需要顺序批量写入，不必支持随机改和删除。所以可以直接把索引存入HDFS，自己实现查询。由于不用支持随机写入和删除。也就是几千行代码而已。最新2011.12期的《程序员》刊登了推特Nathan Marz的文章《如何打败CAP定理》，他们的方案是采用Elephant和Voldemort read-only这一类可以直接从Hadoop MapReduce中导出key/value的数据库。这些数据库都不支持随机写入，简洁使其鲁棒性特别好。这种方式不能更新数据，每次都需要全局重做。但生物数据库对实时更新并没有太高要求。

　　（补：Guancheng大虾提示说，把Hadoop实现的版本跑在512甚至1024核上会不会比C++单线程版本快？把input size增加几倍的话Hadoop版本的Scalability会不会更好？）

　　再记录一件事。大红大紫的redis的维护者刚刚拒绝了微软提交的补丁。补丁的目的是让redis可以在Windows系统下运行。拒绝的原因是Linux completely won as a platform to deploy software（作为工作软件的部署平台，Linux已经完胜win32）。维护者认为应该把精力集中在真正重要的问题上。

　　这一期《程序员》杂志的企业软件专题里面，主编表达了与此相关的一些观点。最近五年以来，Java和C#这些语言逐渐不那么招人喜欢（看这个链接和这个链接）。企业级开发、Windows开发的形象变得过时。像我这种有点年纪的程序员，难免总会有点三十年水流东三十年水流西的感慨。

　　云计算是现在最热的buzzwords，小心，IT领域的大词，总会很快过时。

章文嵩的技术报告

Leave a reply

　　上周末，淘宝网基础软件研发部的负责人章文嵩来计算所做技术报告，一直想记录一下。最近三天在家里照顾病人，所以没顾上写BLOG。

　　大约是十年前在AKA的网站认识了章文嵩和他的LVS。那时候我刚刚接触开源，正在阅读Linux内核源代码，积累俺的《joyfire linux笔记》。当时LVS正在争取成为第一个汇入Linux内核的Made in China项目，我等粉丝狂热崇拜，《joyfire linux笔记》里有专门一章收录LVS技术资料。

　　隔了这么久，章文嵩的外貌似乎没啥变化。这次报告主要介绍淘宝网的基础设施，例如分布式文件系统（TFS）、K/V缓存系统（TAIR）。细节可以参考幻灯。

　　章文嵩提到他们正在踅摸倒排索引等技术，研发上千亿规模的全文检索功能（淘宝网站现有40亿条目，每年翻一番）。另一个设想是图片搜索，预计2年初步可用：女孩子们可用3G手机拍摄商场里的衣服和鞋子，然后发送到淘宝网站，搜索类似的商品信息。

　　章文嵩认为，在网络服务基础中间件领域，商业专有产品性能无法令人满意，淘宝正在实施开源战略，一方面用开源产品把现有平台逐步替换掉，另一方面也对自主研发的基础设施进行开源。他们的TAIR刚刚开源，TFS 预计会在9月份开源。

　　目前淘宝网平均一笔交易耗费0.4度电，可以煮熟4个鸡蛋。因此和Google一样也开始关心能耗问题，希望定制低功耗的服务器。考虑到Memory Cache和Web Service等模块大都是I/O密集型的，对CPU主频要求不高，没必要安装最强悍的CPU。章文嵩抱怨INTEL只看重利润，漠视环保：淘宝希望大规模采购ATOM处理器，得到的回答是“不符合公司战略”，不愿意ATOM挤占高端芯片的市场。最终选用了VIA处理器，关闭不必要的主板模块如USB，能耗大大降低，实现了无风扇，依然有不错的处理吞吐量（单机柜6Gbps）。

joyfire 王乐珩地雷

有事多Google，没事少上网

Tag Archives: 淘宝

淘宝数据盛典和ODPS

从卫生巾说到生物云计算

章文嵩的技术报告