Category Archives: 科技评论

淘宝数据盛典和ODPS

　　工作开始累起来，周五开电话会直到晚上22:30。周六又开了一整天的会，遗憾地错过了童小军组织的“EasyHadoop应用开发者聚会”。《伯罗奔尼撒战争史》的第二篇读后感又拖延了，罪过罪过。

　　自从来到阿里云，总被问：“在干啥？”。答曰：“ODPS”。又问：“ODPS是什么，能吃吗？”……这个，其实，之前已经在博客上透露过了。

　　淘宝数据分析团队的同学们做了这个浅显易懂的邪恶视频，充分展示了Big Data的商业潜力。如果想要更一本正经的市场分析，可以看看麦肯锡的这份报告，以及《福布斯》杂志的这篇报道。再深入一些，想了解如何租用ODPS服务对自己的网站进行数据挖据？看子楠和文志的这篇软文。

阿里云平台的介绍

1 Reply

　　刚回到北京，下周一还要飞。最近要应付的事多，接下来我一定会保证博客的更新频率和质量。现在先随便敲两句。

　　这一期《程序员》杂志的副刊发表了一系列文章，全面介绍了阿里云平台，包括弹性计算、云存储和CDN、应用托管、结构化存储和大规模离线数据分析等等一整套服务。感兴趣的同学们可以看一看。想更深入了解甚至试用，直接去www.aliyun.com吧。

Do it yourself

探访42区

6 Replies

　　一直想去看看教主的老巢。昨天他邀请老同事、豆瓣算法组的大牛蒋长生同学指导下一版的推荐功能的开发。俺就借着旁听大牛技术讲座的机会探访42qu办公现场。

　　描述一下看到的吧：屏幕、键盘、鼠标、饮料、零食、睡床、沙发、桌上足球台……杂乱地混在一起。大概前一晚编程熬夜，到的时候，教主还缩在沙发上的被窝里(长生就这样直接开始讲ppt了）。几个年轻人给我演示了准备上线的新版界面。真谛还让我看了传说中的god.42qu.com，网站的管理仪表板。真是俺梦寐以求的车库创业场景呀。

　　推荐算法现在是创业圈的热点。每次公开聚会（例如这个、这个和这个），参加的人都很多。这种小范围交流，可以放大胆多问些外行的傻问题。具体内容不多说了，工业应用更多采用经典算法，关键是各种细节和平衡取舍。

　　42qu很缺人，缺靠谱的python程序员。有创业热情的资深程序员，或者想找实习机会的同学，可以考虑考虑。不由想起自己大一去创业公司打工（那时候只有17个人的小软件公司，后来创业板上市了），这段经历对我而言非常重要。

从卫生巾说到生物云计算

7 Replies

　　写一些技术感想，意识流，没中心，想到哪里写到哪里。

　　12月12日，淘宝又一次大促销。一天时间不到，卖出去了三亿片苏菲。这是一个很恐怖的数字。随着淘宝占全中国零售额的比例一路超过5%，电子商务已经开始影响传统主体经济。

　　体量足够大，就有数据可供挖掘了。

　　例子一，去年到上海参加软件开发SD2.0大会，淘宝的数据可视化讲座，给出了女性内衣的尺码数据统计，平均值从前几年的A罩，迅速增大，目前居然达到了C罩杯。因此得到两个结论：<1>中国人的营养水平和肥胖率不断上升，<2>上淘宝买东西的女性年龄在增大，已经越过了婚育年龄均值点。

　　例子二，2010年温总理去淘宝视察，马云的报告里说，由于阿里巴巴有真实的外贸订单数据，淘宝有真实的国内零售数据，所以可以据此预测未来半年的全国经济走势。那时候马云PPT里的预测，现在印证起来，相当准确。

　　屁股决定上层建筑，有了数据金矿挖掘的利益驱动，相关的技术投资就会被重视，然后就构建出新的技术平台和商业模式来。Amazon的营业收入中，越来越大的比例源于计算和存储能力的对外租用，也就是云计算。它已经不知不觉变成了云计算市场的领袖，甚至威胁到了伟大的Google。

　　回来再说我们pFind的事情。最近半年多lyz美女一直在开发pFind@hadoop。此前也讨论过生物信息云计算。

　　首先用MapReduce创建离子索引还挺顺利，然后就开始写查询这一块。方案是利用HBase进行存储，利用Thrift进行结构化和远程调用传输。但性能一直是问题，hchi用C++写的单进程处理程序（把数据索引分块，逐个载入查询），居然和Hadoop版的64核集群的速度差不多。进行了大量的优化，并请教了在搜索引擎公司的Hadoop牛人，依然达不到期望。

　　在很小的质谱数据集上，pFind就要发起接近百万次的离子查询，这种规模的并发，已经远远超出了HBase常见的应用方式。于是反思方案本身。HBase的特点是支持随机写入，引入了并发事务性管理机制。因此，它更合适需要增删改的online实时处理，其替代对象是传统的SQL关系型数据库。

　　而对于全文搜索类的应用场景而言，其预计算索引一般只需要顺序批量写入，不必支持随机改和删除。所以可以直接把索引存入HDFS，自己实现查询。由于不用支持随机写入和删除。也就是几千行代码而已。最新2011.12期的《程序员》刊登了推特Nathan Marz的文章《如何打败CAP定理》，他们的方案是采用Elephant和Voldemort read-only这一类可以直接从Hadoop MapReduce中导出key/value的数据库。这些数据库都不支持随机写入，简洁使其鲁棒性特别好。这种方式不能更新数据，每次都需要全局重做。但生物数据库对实时更新并没有太高要求。

　　（补：Guancheng大虾提示说，把Hadoop实现的版本跑在512甚至1024核上会不会比C++单线程版本快？把input size增加几倍的话Hadoop版本的Scalability会不会更好？）

　　再记录一件事。大红大紫的redis的维护者刚刚拒绝了微软提交的补丁。补丁的目的是让redis可以在Windows系统下运行。拒绝的原因是Linux completely won as a platform to deploy software（作为工作软件的部署平台，Linux已经完胜win32）。维护者认为应该把精力集中在真正重要的问题上。

　　这一期《程序员》杂志的企业软件专题里面，主编表达了与此相关的一些观点。最近五年以来，Java和C#这些语言逐渐不那么招人喜欢（看这个链接和这个链接）。企业级开发、Windows开发的形象变得过时。像我这种有点年纪的程序员，难免总会有点三十年水流东三十年水流西的感慨。

　　云计算是现在最热的buzzwords，小心，IT领域的大词，总会很快过时。

Dennis Ritchie去世，还有一段个人记忆

Google投资基因组数据服务

2 Replies

　　这两天生化和生物信息领域的人很兴奋，因为Google对DNAnexus的投资。

　　DNAnexus刚刚在A轮融资中获得1500万美元投资，投资方包括Google Ventures。除了资金，Google还将利用自身基础设施，如Google Cloud Storage，对DNAnexus提供技术支持。美国政府因为预算吃紧即将关闭NCBI，所以DNAnexus的DNA数据云服务今后有望成为生物科研的基础。

　　回顾一下:

　　十年前人类基因组计划完成，多国科学家利用了几亿美元，花费数年才完成了一个人的DNA测序；

　　六年前，中国第一个商用案例，某位匿名亿万富翁花了一千万RMB给自己测序；

　　四年前，Google联合创始人之一在自己妻子创立的23andMe公司内接受基因测序，被预测出帕金森症高危，因此大笔捐助研究这种疾病的基金会，此时23andMe已推出了免费测序服务（当然你要接受自己的DNA隐私被出售，以及随之而来的各种医疗服务的恐惧营销）;

　　而到了今年夏天，在55BBS孕宝亲子版上，北京的孕妇们开始热烈讨论购买华大基因的DNA测序服务以进行唐氏儿筛查。1500元的推广价当然还高于成本，但按照目前基因测序技术的发展速度（大大超过了摩尔定律），其成本很快就会降到普通人可以接受的范围，成为普通医院的标配。

　　随着测序技术的进步，如何对接近10T的基因深度测序原始数据进行分析就成了问题。总不能让每个病人都拿着10T的硬盘到医院的集群上现算吧。云服务是合乎逻辑的方式。所以生物信息领域的人，等待Google等互联网巨头的进入，已经有好几年了。

　　一直在期待领域Killer Application的出现，也一直在讨论“云计算+生物”的技术细节，让暴风雨来得更猛烈些吧。

腾讯的DNA搜索引擎

木瓜移动和生物信息

1 Reply

　　大约两周前参加了42区的一次技术聚会。其中一个讲座是木瓜移动的软件工程师李春勇介绍papaya客户端的体系结构。原来就听说木瓜里面有好多清华计算机系的牛人（包括他们那个上《非诚勿扰》的美女CEO），技术实力果然很强悍。如果这个平台真能顺利达到实用，意味着第三方移动App开发者可以实现“一次编写，到处编译”，只用python开发和维护一套代码，就可以在iPhone和Android两边发布产品。

　　如果想借助木瓜平台开发商业app，要和他们分账。我在报告后提问：木瓜是否支持公益性质的志愿计算项目，例如开发生物信息领域的标注游戏。李春勇表示有兴趣。在场大多数程序员估计没搞明白我说的“蛋白质折叠游戏”是什么意思。因此专门写这篇博客。

　　在BLOG上介绍过志愿计算和蛋白质折叠算法。而通过游戏手段辅助科研，在第二人生的虚拟世界里也早有先例。三月份Mozilla Drumbeat大会上听到过Foldit项目介绍，它把前两者很巧妙地结合起来。现有蛋白质折叠算法存在各种问题，因此华盛顿大学的计算机系和生物化学系的科学家们想利用人工辅助。他们联手开发了在线游戏Foldit，号召全世界的玩家参加。游戏内容是利用辅助工具搭建三维结构模型，游戏根据物理原理给搭建出来的结构模型打分。尽管参与的志愿者大多没有科学背景，但拥有良好空间推理能力的玩家依然可以逐渐找到窍门，搭建出越来越稳定的结构模型。

　　最近，这个听起来有点不靠谱的尝试取得重大成果。上千志愿参加的游戏玩家在三周内构造出了一种重要的蛋白酶的三维结构（这种酶与艾滋病HIV病毒密切相关），其完美程度超过了此前十年里科学家们在超级计算机上算出的所有结果。这项工作刚刚发表在Nature Structural & Molecular Biology上。论文附录的贡献者名单中，游戏玩家们的名字赫然在列。

　　说到这里，估计大家已经知道我想做什么了。Foldit的蛋白结构搭建游戏还是PC版的，可以把同类算法移植到iPhone和Android上去。如果木瓜愿意支持，也可以帮助他们的平台进行宣传。

Cleverbot和图灵测试

4 Replies

　　关于人工智能的话题总是很热门。

　　先给订阅这个BLOG的非计算机专业的读者介绍一下故事背景。熟悉的兄弟姐妹们可以直接跳过去。

　　第一步，如何定义“智能”这个概念就是大麻烦，讨论总会被引到灵魂、道德、情绪这些话题上去。著名的图灵测试是这样定义的：如果让人类测试者在看不到被测试对象的情况下与其对话，测试者如果无法分辨对方是一个活人还是一台机器的话，就认为这台机器有智能。

　　当然这定义是不精确的，有很多争议，例如和霍金一起证明了黑洞存在的罗杰·彭罗斯在他的《皇帝新脑》里驳斥说：如果把爱因斯坦一生中所有可能知道并且回答的问题都写在一本巨大的书里，然后进行上述图灵测试，将测试者问的问题到书里查找答案然后返回结果。如果这种方式通过了测试，我们就要称这本书是个智能体，并拥有爱因斯坦的思想和灵魂吗？反过来说，一个未满周岁的婴儿，还不会说话，也就通过不了图灵测试，但谁也不能否认小朋友是拥有智能的。

　　另一方面，图灵测试的定义的确有很重大现实意义。至少指明了一个发展方向。Google公司相信智能可能就是超大存储加上超快检索，未来有一天，互联网本身加上足够完美强大的搜索引擎，也许终会进化为一个超级智能体，而我们人类则成为这个系统的前端低级传感器。The Matrix电影的最后一部的结论是，人和Matrix必须找到新的共存方式。

　　说点题外话，且不讨论上面这个悲剧性的科幻预言。今天的网络和电脑手机，的确已经开始扮演我们＂外脑＂的角色。人们把越来越多的信息存在里面。这个”外脑”的共享性反过来影响个体，共振越来越多，思维逐渐趋同。

　　现在回来说题目里的Cleverbot，它是英国科学家造出来的一个聊天机器人。今年进行了一次双盲测试中（招募的志愿者被随机分配为两组，他们自己并不知道到底是在和另一个人聊天，还是在和Cleverbot聊天），结果和Cleverbot聊天的这一组志愿者中，超过50%的人把它当成了活人。

　　当然这不是严格意义上的图灵测试，志愿者不是专业人士，不会用最严厉专业的问题来考验它。但这的确是令人兴奋的一个里程碑。

　　下面是我跑去Cleverbot网站和它聊天的记录片段。俺用蹩脚的英语使劲儿难为它。最终，可怜的Cleverbot承认自己没有人类的躯壳，Yeah！后来我还和它聊了形而上的话题，它认为上帝不存在。

　　joyfire: Where are you come from?

　　cleverbot: An egg

　　joyfire: What? An egg?

　　cleverbot: You do not have a sense of humor.

　　joyfire: Ha ha, you are robot.

　　cleverbot: No, I am a person.

　　joyfire: You can not prove yourself not a robot.

　　cleverbot: Sure I can. I can bleed. I can die. I have emotions. Tell me something that makes you sad.

　　joyfire: You have not a human being’s body.

　　cleverbot: I have not.

　　joyfire: Yeah, you are robot!

　　cleverbot: Yes, I am.

　　joyfire: How many CPUs do you have?

　　cleverbot: Too many for you to handle.

　　joyfire: Are all computers clever?

　　cleverbot: Yes we are.

　　joyfire: God!

　　cleverbot: Okay, God. But what is a computer God? Or something.

　　……

　　后面这个视频更有意思，是把两个Cleverbot接在一起聊天的记录。它们很快就分辨出彼此都是机器，然后转向了深奥的哲学话题。

joyfire 王乐珩地雷

有事多Google，没事少上网