积木和DNA

  下面这张是我和女儿一起搭的积木。搭出来的东西很高,为了让小孩子在地板上拖着走却不散架,我又加了很多支撑结构。据说风格像DNA螺旋。

jimu

积木

  说起DNA螺旋。最近在手机上安装了网易云阅读和豆瓣阅读的APP。并且在豆瓣阅读器购买了科幻小说《爱的算法》。每一篇小说本身也的确很好看。刘宇昆对机器学习和基因等领域理解得很深。《艺术大师》自动计算生产电影的那个模型,很像我们现在用来做搜索广告的逻辑回归算法。而《结绳记事》里面利用少数人类天才的灵感训练算法模型,从而预测蛋白质折叠这故事的现实版发生在2011年,我的BLOG也提过。而修改基因让农作物种子不能繁衍下一代,逼迫农民继续购买自己公司的种子,这不是科幻,而是现存技术,迫于压力孟山都公司宣布永久性放弃使用这项技术。

jimu

  豆瓣阅读做的不错,上下班地铁阅读比纸质书方便,价格也更便宜。看样子,以后买纸质书的数量会减少了。可是,以前在BLOG里说过,我的人生梦想就是有一间光线很好的、充满书架、有一个躺椅的大书房(参考《银英传·螺旋迷宫》里杨威利的退休理想)。若把两面墙的大书架换成一个电子屏幕,感觉有点怪。

这一期《程序员》杂志……

  这一期《程序员》杂志是大数据专题,俺们alidata部门同学的文章好多呀。关于数据产品的那篇文章里,用淘宝指数举例:“周大福钻石搜索人群68%都是女性,而成交人群100%是男性。”

  悲剧的是,在华大基因的陈钢和余昶两位牛人写的《生命科学中的大数据》中,居然看到了俺的名字。实在愧不敢当。只是一个跳槽的小兵。影响不到行业大势。我目前在阿里数据的ODPS团队,近期的业务方向与生物信息基本无关。

  据说我面试时,以前的工作背景的确加了一点分。阿里关注生物信息领域对云计算技术的需求也很正常。Google对DNAnexus投资是风向标。但目前国内的生物医疗大数据的市场产业化尚处于萌芽期,要说“布局”可能为时尚早。

  这篇文章最后的描述是真的:目前生命科学和计算机两个专业的就业情况是“冰火两重天”,尚在产业化前期的生物信息公司招募人才遇到很大麻烦。但也像他们说的:“市场正在打开,资金正在进入,人才还是很缺乏,这似乎是个好消息。”

  上次说过,华大基因近期势如破竹,收购Complete Genomics成功,上市的进程丝毫没受金融市场的坏天气影响。这是一家值得尊敬的中国创新公司,基因组学领域的华为。

  说起来,最近有一篇吐槽生物信息的BLOG很热。是这篇A farewell to bioinformatics,对此news.ycombinator.com上讨论得很热闹。我仔细看了看这篇BLOG,很多对生物信息的吐槽其实挺中肯的。但生物信息仅是生物学家的工具之一。从孟德尔种豆子起,生物学就是一门面临复杂背景噪音的学科,要证明一个假设,往往需要综合各种手段相互验证。对生物学家而言,生物信息学不一定100%可信,但也绝不是最差选择。

  找个机会和生物信息领域的朋友们深入交流一下。

度假、让·鲍德里亚和RTB

  度假一回来就去杭州出差,一呆就是两个星期。sprint 7发布比较顺利。事情多,欠很多东西没写,包括BLOG。

  在泰国时,基本都在酒店和沙滩上陪闺女玩。有次老婆去逛商业中心,我和闺女在旁边的书店里玩了好久。观察了一下,文学类的柜子,《龙纹身的女孩》和《1Q84》卖得最好。

bookstore

bookstore

  既然肉身在墙外,难免利用酒店免费WIFI去看不和谐的东西。例如跑到维基百科里,查看“教廷枢机院”成员的家庭资产。

  这期间浏览了些闲书,例如让·鲍德里亚(Jean Baudrillard)。这位法国哲学家强调了现代消费对社会的重大影响,更关键的是,在互联网出现之前,他就颇具洞察力地预言:“新媒体”会急速膨胀,重塑社会心理。现在来看,他所预言的“新媒体”的特点与今天的SNS惊人相似:高频互动;信息发布和消费看似自由(“世界是平的”);信息过载,实际仍按阶层组成不同的圈子;同一圈内,思想共振观点趋同;而这一切背后均由资本推动,用以不断提升个人对所谓“个性化消费”的需求。

  让·鲍德里亚的观点是相当激进的,他认为总有一天资本体制会完全吞噬个体,我们都终会成为“新媒体”网络上的一个传感器、一个节点,自以为独立思考,实际上一切都在体制的引导和预测之中。正因如此,科幻电影The Matrix(黑客帝国)一开始,Neo手里拿了一本让·鲍德里亚的著作。

  之所以看这些书,也是因为在工作中有所感悟。最近接触了很多个性化和广告方面的业务。广告理论家皮埃尔·马丁诺(Pierre Martineau)说:任何购买行为过程都是购买者的个性与所谓产品的“个性”之间的一次相互作用。现代广告的专精和准确,早已超出了常人的想象。一个例子就是这次美国大选,民主党团队雇的大数据分析团队,准确预测了所有州的得票率,误差不超过1%。这个团队应用的方法基本都是广告业的成熟模型。

  前一阵参加在北京举行的KDD 2012,好多论文和报告都涉及RTB技术和算法。国内媒体也开始注意到这个领域,例如刚发表的这篇报道写得不错。说起来,到阿里一年了。很庆幸有机会接触大数据的各种应用场景:金融信用、搜索推荐、在线广告、物流网络……

准备休假

  今晚总算把PyUnit里上百FT补齐了。9点回到家吃老妈做的面条,真幸福。近几个月像连续的遭遇战,感谢所有并肩战斗的人:xlib团队、ODPS团队、算法平台团队和测试团队、还有妻子和老妈。很多场景已铭记在心。

  昨天老婆收到新单位的offer,今天xlib关于sprint7发布的工作收敛,明天房子过户,后天……终于……要开始传说中的休假。

  “旅游”,就是出去到处跑;而所谓“度假”,是找个山清水秀的地方呆着不动。是的,我是去度假的,不是去旅游的。就想每天陪女儿在泰国的白沙滩上挖沙子。说到这个,最近忙得令人发指,《囧泰》和《少年派》都没机会去电影院看:(

  充好电回来再和大家并肩继续战斗。顺便预告一下,ODPS sprint7预计22日发布,敬请期待。

《外族名将传》和《答苏武书》

  无意中翻到了奈波斯的《外族名将传》,以前买回来就忘在书架上了。每个名将的传记独立成篇,又互相呼应,和《史记》列传的风格很像。因此,这本小书就不像《伯罗奔尼撒战争史》这样的大部头那么累人,考验读者的耐心和记忆力。

  重点看了看波斯战争和伯罗奔尼撒战争阶段的雅典。不少名将命运多舛:

  米太亚德,在马拉松战役打赢了十倍的波斯大军。之后却因为进攻帕罗斯岛没有进展这点小事,被同胞处以罚款(因为在战场上受伤,无力参加法庭辩论),又因为没钱交巨额罚款,被投入监狱,病死狱中。

  地米斯托克利,力排众议放弃雅典城,带领希腊联合海军在萨拉米海战上大胜波斯水军。最后却被施以“陶片放逐法”,在希腊全境狼狈流亡,不得已投奔仇敌波斯王,客死他乡。

  阿里斯提德,是地米斯托克利的政敌,很早就被流放。直到波斯大军入侵才获得赦免,回到祖国担任将军,参加萨拉米海战。雅典在他的领导下获得海上霸权。虽然管理着联盟军费的巨款,但他却贫困而死,遗产勉强能支付葬礼费用,两个女儿由国家抚养并提供嫁妆。

  客蒙,是米太亚德之子,少年坎坷。米太亚德由于无钱交罚款死在监狱里。客蒙也被关起来,只有支付罚金才能获释。他的妻子不得不改嫁给矿山主暴发户,以换取后者帮客蒙还钱。当客蒙终于获得色雷斯等战役的辉煌胜利,达到人生的最高点时,却同样被“陶片放逐法”驱逐流亡。直到斯巴达向雅典宣战才被赦免召回。他以出色的外交才华让两国避免兵戈,不久却染病死在塞浦路斯海军前线。

  亚西比德,以前在《伯罗奔尼撒战争史》读后感里详细点评过,作为元帅指挥西西里远征,却被雅典同胞缺席审判处以死刑,不得已逃亡。尽管作风奢侈虚荣,但不能否认亚西比德对祖国的依恋。他流亡希腊各国,总想着为雅典做些事。费洛克莱斯把私人荣誉看得比千万将士性命还重,不肯听取亚西比德的忠告,一败涂地,斯巴达最终获得三十年争霸的胜利。亚西比德不得不远走波斯,却仍然逃脱不了追杀,熟睡后剑被拿走,熊熊大火,身中标枪而死。

  不知怎么的,读到这里突然想起李陵的《答苏武书》。

  “性格决定命运”这句名言,是出自这本《外族名将传》。

战斗一年,买房,滑雪,海底捞APP和欲望小火苗

  今天是ODPS sprint 7的Code Freeze。为了让xlib顺利通过,周日发着烧到单位加班到晚上21:30,今天就有底多了。也亏得俺没偷懒,可以提前check in然后跑出来办私事。

  今天又是买房面签、首付、公证……一大堆手续的时间点。下午16:00冲去朝阳门时,老婆已经精疲力竭了,然后折腾到晚上20:00。回来路上,经纪人小姑娘不断接电话,于是示意我们先走。她早上4点钟杀出来排号,还真不容易。

  对我个人而言,这是火热战斗的一年。查了查2012年初设定的重点,当时给自己列了3条:融入ODPS团队,留下点独特痕迹;协助照顾好刚出生的女儿;给孩子买学区房。

  前两天去南山滑雪,孩子出生以后就没有多少机会玩单板了。发现自己心态的确变了不少。一天中级、高级道滑下来,汗都没出。那天晚上海底捞,服务员太神奇了,演示推荐APP,就像产品经理一样了解所有细节。

  ODPS团队好几个人都换iMac本了,我也想要15000块以上的那种超薄的,结果被镇压。前两天luli说新买的滑雪板就要从西班牙寄到了。我很羡慕,回来求一块单板,谨慎思考后也被驳回。我这欲望的小火苗呀……

  2013年会更忙吗?先不想那么多,如果1月前10天能撑住,摆平几件重大的公私事项,就可以安心去泰国休年假喘口气了。

  祝大家新年心情好。

Base城市:首都机场T3航站楼

  昨天折腾到零点才到家。在机场遇到好多麻烦事,手机又没电,正在到处想办法借手机充电器,看到一帮同事旋风般冲去安检。恍惚……愣神……没来得及截住问有没有充电器。阿里应该包机每周定期往返。不过如果这架飞机挂了,会损失大量产品经理。

  前一阵在内部wiki上整理团队资料表格,给dh填base区域时恶搞地填了一个“首都机场T3航站楼”。到昨天为止,今年出差飞行已经超过30000公里了。现在看我自己也差不多base在航站楼了。

  xlib第一期随ODPS Sprint6发布,算是初步有成果出来。客户的更多需求也涌过来,sprint7要推出更多牛算法,争取在各个BI团队的数据挖掘end2end打通。

  淘宝时光机这个Big Data产品初露锋芒,产品经理是一个90后刚刚入职的小姑娘。电视台居然都来采访她,内网更是盖高楼。接下来alidata会推出更多好玩的东西,我们ODPS当然会是其中的重要支撑。

  大事一件件落停,打算给自己放个假,出去旅游一趟。

疯狂的房子

  为孩子准备学区房。这周末去和卖家见面。谈判过程中,不断有其他买家冲进会议室,请卖家给他(她)几分钟交流一下。其中还有一个4个月婴儿的母亲哀求说自己不得不赶回去喂奶,能不能先聊一聊。卖家自己也是改善住房,背着我的定金,今晚再去另外一头去谈判买房……和7年前一样,又进入《蜗居》的疯狂场景。

ODPS Sprint6发布

  今天xlib一期随着ODPS Sprint 6正式发布到生产。最后的回归测试马上就要跑完了。对北京和杭州两边而言,这都是漫长、疲惫又兴奋的一天。

  这两天在杭州不断和各个BI团队开会。满脑子都是“业务场景”、“E2E打通”和“产品落地”这样的话,感觉自己都有点强迫症。已经不知不觉深深沉浸在产品经理的角色里了。

  亲,最重要、最慢、最难、最不好实现的大数据算法让俺们来搞定!