Monthly Archives: February 2013

积木和DNA

  下面这张是我和女儿一起搭的积木。搭出来的东西很高,为了让小孩子在地板上拖着走却不散架,我又加了很多支撑结构。据说风格像DNA螺旋。

jimu

积木

  说起DNA螺旋。最近在手机上安装了网易云阅读和豆瓣阅读的APP。并且在豆瓣阅读器购买了科幻小说《爱的算法》。每一篇小说本身也的确很好看。刘宇昆对机器学习和基因等领域理解得很深。《艺术大师》自动计算生产电影的那个模型,很像我们现在用来做搜索广告的逻辑回归算法。而《结绳记事》里面利用少数人类天才的灵感训练算法模型,从而预测蛋白质折叠这故事的现实版发生在2011年,我的BLOG也提过。而修改基因让农作物种子不能繁衍下一代,逼迫农民继续购买自己公司的种子,这不是科幻,而是现存技术,迫于压力孟山都公司宣布永久性放弃使用这项技术。

jimu

  豆瓣阅读做的不错,上下班地铁阅读比纸质书方便,价格也更便宜。看样子,以后买纸质书的数量会减少了。可是,以前在BLOG里说过,我的人生梦想就是有一间光线很好的、充满书架、有一个躺椅的大书房(参考《银英传·螺旋迷宫》里杨威利的退休理想)。若把两面墙的大书架换成一个电子屏幕,感觉有点怪。

这一期《程序员》杂志……

  这一期《程序员》杂志是大数据专题,俺们alidata部门同学的文章好多呀。关于数据产品的那篇文章里,用淘宝指数举例:“周大福钻石搜索人群68%都是女性,而成交人群100%是男性。”

  悲剧的是,在华大基因的陈钢和余昶两位牛人写的《生命科学中的大数据》中,居然看到了俺的名字。实在愧不敢当。只是一个跳槽的小兵。影响不到行业大势。我目前在阿里数据的ODPS团队,近期的业务方向与生物信息基本无关。

  据说我面试时,以前的工作背景的确加了一点分。阿里关注生物信息领域对云计算技术的需求也很正常。Google对DNAnexus投资是风向标。但目前国内的生物医疗大数据的市场产业化尚处于萌芽期,要说“布局”可能为时尚早。

  这篇文章最后的描述是真的:目前生命科学和计算机两个专业的就业情况是“冰火两重天”,尚在产业化前期的生物信息公司招募人才遇到很大麻烦。但也像他们说的:“市场正在打开,资金正在进入,人才还是很缺乏,这似乎是个好消息。”

  上次说过,华大基因近期势如破竹,收购Complete Genomics成功,上市的进程丝毫没受金融市场的坏天气影响。这是一家值得尊敬的中国创新公司,基因组学领域的华为。

  说起来,最近有一篇吐槽生物信息的BLOG很热。是这篇A farewell to bioinformatics,对此news.ycombinator.com上讨论得很热闹。我仔细看了看这篇BLOG,很多对生物信息的吐槽其实挺中肯的。但生物信息仅是生物学家的工具之一。从孟德尔种豆子起,生物学就是一门面临复杂背景噪音的学科,要证明一个假设,往往需要综合各种手段相互验证。对生物学家而言,生物信息学不一定100%可信,但也绝不是最差选择。

  找个机会和生物信息领域的朋友们深入交流一下。

度假、让·鲍德里亚和RTB

  度假一回来就去杭州出差,一呆就是两个星期。sprint 7发布比较顺利。事情多,欠很多东西没写,包括BLOG。

  在泰国时,基本都在酒店和沙滩上陪闺女玩。有次老婆去逛商业中心,我和闺女在旁边的书店里玩了好久。观察了一下,文学类的柜子,《龙纹身的女孩》和《1Q84》卖得最好。

bookstore

bookstore

  既然肉身在墙外,难免利用酒店免费WIFI去看不和谐的东西。例如跑到维基百科里,查看“教廷枢机院”成员的家庭资产。

  这期间浏览了些闲书,例如让·鲍德里亚(Jean Baudrillard)。这位法国哲学家强调了现代消费对社会的重大影响,更关键的是,在互联网出现之前,他就颇具洞察力地预言:“新媒体”会急速膨胀,重塑社会心理。现在来看,他所预言的“新媒体”的特点与今天的SNS惊人相似:高频互动;信息发布和消费看似自由(“世界是平的”);信息过载,实际仍按阶层组成不同的圈子;同一圈内,思想共振观点趋同;而这一切背后均由资本推动,用以不断提升个人对所谓“个性化消费”的需求。

  让·鲍德里亚的观点是相当激进的,他认为总有一天资本体制会完全吞噬个体,我们都终会成为“新媒体”网络上的一个传感器、一个节点,自以为独立思考,实际上一切都在体制的引导和预测之中。正因如此,科幻电影The Matrix(黑客帝国)一开始,Neo手里拿了一本让·鲍德里亚的著作。

  之所以看这些书,也是因为在工作中有所感悟。最近接触了很多个性化和广告方面的业务。广告理论家皮埃尔·马丁诺(Pierre Martineau)说:任何购买行为过程都是购买者的个性与所谓产品的“个性”之间的一次相互作用。现代广告的专精和准确,早已超出了常人的想象。一个例子就是这次美国大选,民主党团队雇的大数据分析团队,准确预测了所有州的得票率,误差不超过1%。这个团队应用的方法基本都是广告业的成熟模型。

  前一阵参加在北京举行的KDD 2012,好多论文和报告都涉及RTB技术和算法。国内媒体也开始注意到这个领域,例如刚发表的这篇报道写得不错。说起来,到阿里一年了。很庆幸有机会接触大数据的各种应用场景:金融信用、搜索推荐、在线广告、物流网络……