卫生巾 | joyfire 王乐珩地雷

　　写一些技术感想，意识流，没中心，想到哪里写到哪里。

　　12月12日，淘宝又一次大促销。一天时间不到，卖出去了三亿片苏菲。这是一个很恐怖的数字。随着淘宝占全中国零售额的比例一路超过5%，电子商务已经开始影响传统主体经济。

　　体量足够大，就有数据可供挖掘了。

　　例子一，去年到上海参加软件开发SD2.0大会，淘宝的数据可视化讲座，给出了女性内衣的尺码数据统计，平均值从前几年的A罩，迅速增大，目前居然达到了C罩杯。因此得到两个结论：<1>中国人的营养水平和肥胖率不断上升，<2>上淘宝买东西的女性年龄在增大，已经越过了婚育年龄均值点。

　　例子二，2010年温总理去淘宝视察，马云的报告里说，由于阿里巴巴有真实的外贸订单数据，淘宝有真实的国内零售数据，所以可以据此预测未来半年的全国经济走势。那时候马云PPT里的预测，现在印证起来，相当准确。

　　屁股决定上层建筑，有了数据金矿挖掘的利益驱动，相关的技术投资就会被重视，然后就构建出新的技术平台和商业模式来。Amazon的营业收入中，越来越大的比例源于计算和存储能力的对外租用，也就是云计算。它已经不知不觉变成了云计算市场的领袖，甚至威胁到了伟大的Google。

　　回来再说我们pFind的事情。最近半年多lyz美女一直在开发pFind@hadoop。此前也讨论过生物信息云计算。

　　首先用MapReduce创建离子索引还挺顺利，然后就开始写查询这一块。方案是利用HBase进行存储，利用Thrift进行结构化和远程调用传输。但性能一直是问题，hchi用C++写的单进程处理程序（把数据索引分块，逐个载入查询），居然和Hadoop版的64核集群的速度差不多。进行了大量的优化，并请教了在搜索引擎公司的Hadoop牛人，依然达不到期望。

　　在很小的质谱数据集上，pFind就要发起接近百万次的离子查询，这种规模的并发，已经远远超出了HBase常见的应用方式。于是反思方案本身。HBase的特点是支持随机写入，引入了并发事务性管理机制。因此，它更合适需要增删改的online实时处理，其替代对象是传统的SQL关系型数据库。

　　而对于全文搜索类的应用场景而言，其预计算索引一般只需要顺序批量写入，不必支持随机改和删除。所以可以直接把索引存入HDFS，自己实现查询。由于不用支持随机写入和删除。也就是几千行代码而已。最新2011.12期的《程序员》刊登了推特Nathan Marz的文章《如何打败CAP定理》，他们的方案是采用Elephant和Voldemort read-only这一类可以直接从Hadoop MapReduce中导出key/value的数据库。这些数据库都不支持随机写入，简洁使其鲁棒性特别好。这种方式不能更新数据，每次都需要全局重做。但生物数据库对实时更新并没有太高要求。

　　（补：Guancheng大虾提示说，把Hadoop实现的版本跑在512甚至1024核上会不会比C++单线程版本快？把input size增加几倍的话Hadoop版本的Scalability会不会更好？）

　　再记录一件事。大红大紫的redis的维护者刚刚拒绝了微软提交的补丁。补丁的目的是让redis可以在Windows系统下运行。拒绝的原因是Linux completely won as a platform to deploy software（作为工作软件的部署平台，Linux已经完胜win32）。维护者认为应该把精力集中在真正重要的问题上。

　　这一期《程序员》杂志的企业软件专题里面，主编表达了与此相关的一些观点。最近五年以来，Java和C#这些语言逐渐不那么招人喜欢（看这个链接和这个链接）。企业级开发、Windows开发的形象变得过时。像我这种有点年纪的程序员，难免总会有点三十年水流东三十年水流西的感慨。

　　云计算是现在最热的buzzwords，小心，IT领域的大词，总会很快过时。

joyfire 王乐珩地雷

有事多Google，没事少上网

Tag Archives: 卫生巾

从卫生巾说到生物云计算