Category Archives: 流水帐

在沙尘暴中的降落

  刚飞回北京。早上杭州天气特别好,高速一路畅通,航班也没晚点,照例在登机口偶遇了同事,心情不错。可惜猜中了开头,没猜中结尾。

  越接近北京越颠簸,在天上多绕了半小时才开始降落,接近地面时上窜下跳,搞得很多乘客都喊头晕恶心。我就坐在一位空姐旁边,降落后她松了一口气,小声说,其实差一点备降天津。

  这还不算完,飞机还没停稳就感觉沙尘暴忒厉害,吹得机身不断晃。机长广播说,风力太大,客梯车无法靠过来。机场发布了橙色预警,跑道关闭,后续飞机都备降到石家庄去了。困了两个钟头,预警级别才降为黄色,总算从憋闷的机舱里逃出来。

  回来一看新闻,11点40分首都机场风速高达30米/秒风力达11级;11点46分T3航站楼屋顶局部被瞬间超过11级以上的强旋风掀开;12点20分天津机场已按操作规程固定的飞机被强阵风吹偏机头,撞上了廊桥……这么说起来,我真算幸运的。

  降落前剧烈颠簸,好多念头闪过:先想到家人,然后又觉得ODPS和算法平台的工作刚展开……接下来冒出来的居然是:最近太忙太懒,BLOG好久没更新了。

  好吧,我知道错了,很多事儿既然想到了,就该马上做的。例如写这篇BLOG。再例如下周休假一天,帮老婆跑跑建材城,和老妈一起看看孩子。

这一期《程序员》杂志……

  这一期《程序员》杂志是大数据专题,俺们alidata部门同学的文章好多呀。关于数据产品的那篇文章里,用淘宝指数举例:“周大福钻石搜索人群68%都是女性,而成交人群100%是男性。”

  悲剧的是,在华大基因的陈钢和余昶两位牛人写的《生命科学中的大数据》中,居然看到了俺的名字。实在愧不敢当。只是一个跳槽的小兵。影响不到行业大势。我目前在阿里数据的ODPS团队,近期的业务方向与生物信息基本无关。

  据说我面试时,以前的工作背景的确加了一点分。阿里关注生物信息领域对云计算技术的需求也很正常。Google对DNAnexus投资是风向标。但目前国内的生物医疗大数据的市场产业化尚处于萌芽期,要说“布局”可能为时尚早。

  这篇文章最后的描述是真的:目前生命科学和计算机两个专业的就业情况是“冰火两重天”,尚在产业化前期的生物信息公司招募人才遇到很大麻烦。但也像他们说的:“市场正在打开,资金正在进入,人才还是很缺乏,这似乎是个好消息。”

  上次说过,华大基因近期势如破竹,收购Complete Genomics成功,上市的进程丝毫没受金融市场的坏天气影响。这是一家值得尊敬的中国创新公司,基因组学领域的华为。

  说起来,最近有一篇吐槽生物信息的BLOG很热。是这篇A farewell to bioinformatics,对此news.ycombinator.com上讨论得很热闹。我仔细看了看这篇BLOG,很多对生物信息的吐槽其实挺中肯的。但生物信息仅是生物学家的工具之一。从孟德尔种豆子起,生物学就是一门面临复杂背景噪音的学科,要证明一个假设,往往需要综合各种手段相互验证。对生物学家而言,生物信息学不一定100%可信,但也绝不是最差选择。

  找个机会和生物信息领域的朋友们深入交流一下。

度假、让·鲍德里亚和RTB

  度假一回来就去杭州出差,一呆就是两个星期。sprint 7发布比较顺利。事情多,欠很多东西没写,包括BLOG。

  在泰国时,基本都在酒店和沙滩上陪闺女玩。有次老婆去逛商业中心,我和闺女在旁边的书店里玩了好久。观察了一下,文学类的柜子,《龙纹身的女孩》和《1Q84》卖得最好。

bookstore

bookstore

  既然肉身在墙外,难免利用酒店免费WIFI去看不和谐的东西。例如跑到维基百科里,查看“教廷枢机院”成员的家庭资产。

  这期间浏览了些闲书,例如让·鲍德里亚(Jean Baudrillard)。这位法国哲学家强调了现代消费对社会的重大影响,更关键的是,在互联网出现之前,他就颇具洞察力地预言:“新媒体”会急速膨胀,重塑社会心理。现在来看,他所预言的“新媒体”的特点与今天的SNS惊人相似:高频互动;信息发布和消费看似自由(“世界是平的”);信息过载,实际仍按阶层组成不同的圈子;同一圈内,思想共振观点趋同;而这一切背后均由资本推动,用以不断提升个人对所谓“个性化消费”的需求。

  让·鲍德里亚的观点是相当激进的,他认为总有一天资本体制会完全吞噬个体,我们都终会成为“新媒体”网络上的一个传感器、一个节点,自以为独立思考,实际上一切都在体制的引导和预测之中。正因如此,科幻电影The Matrix(黑客帝国)一开始,Neo手里拿了一本让·鲍德里亚的著作。

  之所以看这些书,也是因为在工作中有所感悟。最近接触了很多个性化和广告方面的业务。广告理论家皮埃尔·马丁诺(Pierre Martineau)说:任何购买行为过程都是购买者的个性与所谓产品的“个性”之间的一次相互作用。现代广告的专精和准确,早已超出了常人的想象。一个例子就是这次美国大选,民主党团队雇的大数据分析团队,准确预测了所有州的得票率,误差不超过1%。这个团队应用的方法基本都是广告业的成熟模型。

  前一阵参加在北京举行的KDD 2012,好多论文和报告都涉及RTB技术和算法。国内媒体也开始注意到这个领域,例如刚发表的这篇报道写得不错。说起来,到阿里一年了。很庆幸有机会接触大数据的各种应用场景:金融信用、搜索推荐、在线广告、物流网络……

准备休假

  今晚总算把PyUnit里上百FT补齐了。9点回到家吃老妈做的面条,真幸福。近几个月像连续的遭遇战,感谢所有并肩战斗的人:xlib团队、ODPS团队、算法平台团队和测试团队、还有妻子和老妈。很多场景已铭记在心。

  昨天老婆收到新单位的offer,今天xlib关于sprint7发布的工作收敛,明天房子过户,后天……终于……要开始传说中的休假。

  “旅游”,就是出去到处跑;而所谓“度假”,是找个山清水秀的地方呆着不动。是的,我是去度假的,不是去旅游的。就想每天陪女儿在泰国的白沙滩上挖沙子。说到这个,最近忙得令人发指,《囧泰》和《少年派》都没机会去电影院看:(

  充好电回来再和大家并肩继续战斗。顺便预告一下,ODPS sprint7预计22日发布,敬请期待。

战斗一年,买房,滑雪,海底捞APP和欲望小火苗

  今天是ODPS sprint 7的Code Freeze。为了让xlib顺利通过,周日发着烧到单位加班到晚上21:30,今天就有底多了。也亏得俺没偷懒,可以提前check in然后跑出来办私事。

  今天又是买房面签、首付、公证……一大堆手续的时间点。下午16:00冲去朝阳门时,老婆已经精疲力竭了,然后折腾到晚上20:00。回来路上,经纪人小姑娘不断接电话,于是示意我们先走。她早上4点钟杀出来排号,还真不容易。

  对我个人而言,这是火热战斗的一年。查了查2012年初设定的重点,当时给自己列了3条:融入ODPS团队,留下点独特痕迹;协助照顾好刚出生的女儿;给孩子买学区房。

  前两天去南山滑雪,孩子出生以后就没有多少机会玩单板了。发现自己心态的确变了不少。一天中级、高级道滑下来,汗都没出。那天晚上海底捞,服务员太神奇了,演示推荐APP,就像产品经理一样了解所有细节。

  ODPS团队好几个人都换iMac本了,我也想要15000块以上的那种超薄的,结果被镇压。前两天luli说新买的滑雪板就要从西班牙寄到了。我很羡慕,回来求一块单板,谨慎思考后也被驳回。我这欲望的小火苗呀……

  2013年会更忙吗?先不想那么多,如果1月前10天能撑住,摆平几件重大的公私事项,就可以安心去泰国休年假喘口气了。

  祝大家新年心情好。

疯狂的房子

  为孩子准备学区房。这周末去和卖家见面。谈判过程中,不断有其他买家冲进会议室,请卖家给他(她)几分钟交流一下。其中还有一个4个月婴儿的母亲哀求说自己不得不赶回去喂奶,能不能先聊一聊。卖家自己也是改善住房,背着我的定金,今晚再去另外一头去谈判买房……和7年前一样,又进入《蜗居》的疯狂场景。

ODPS Sprint6发布

  今天xlib一期随着ODPS Sprint 6正式发布到生产。最后的回归测试马上就要跑完了。对北京和杭州两边而言,这都是漫长、疲惫又兴奋的一天。

  这两天在杭州不断和各个BI团队开会。满脑子都是“业务场景”、“E2E打通”和“产品落地”这样的话,感觉自己都有点强迫症。已经不知不觉深深沉浸在产品经理的角色里了。

  亲,最重要、最慢、最难、最不好实现的大数据算法让俺们来搞定!

思考、刺激和恋爱的线虫

  上次好书不少。看完诺贝尔奖获得者Daniel Kahneman的《思考,快与慢》之后,不由自主进行三十岁大叔的半途反省。好多重要决策时,我们自以为理智在主导,其实是被原始的条件反射左右,而所谓逻辑,仅用于事后拼凑借口。

  说到刺激输入、条件反射和大脑决策。两年前我在BLOG上写过麻省理工Ed Boyden教授用激光控制大脑的试验。类似的心理学、药理学例子很多。例如剑桥68级心理系学生的集体恶作剧,他们成功地使得一位有名望的神经心理学家只呆在演讲厅的左边讲课

  Robert Galbrainth做过更加惊悚的的尝试:他们给一名24岁黑人男性(代号B-19)脑中9个不同的区域植入了内置电极。其中有的区域是大脑中的奖赏系统,电流刺激使B-19产生了愉快的感觉。如果把这个电极的控制器交给B-19,他就会不停地按,和吸毒一模一样。

  他们做了更过分的事:B-19是同性恋,看异性恋的性交录影没有任何性反应,并表现出反感。但是刺激B-19的奖赏电级后,他开始兴奋、勃起和手淫。路易斯安那地方法院通过后,请了一名妓女来实验室引诱B-19。她成功了。长达2个小时的性交。B-19甚至克服了连在脑袋上各种碍事的电线。

  经过几个月的恢复,B-19慢慢对异性又失去了兴趣。但他的认知出现矛盾、焦虑和强迫症,他的一辈子都被这个实验毁了。

  其实不用那么多高科技,电级啊、激光啊。最简单的环境设定,就能让小白鼠患上抑郁症。对人类而言,社会本身就是最吓人的实验室。我们和小白鼠一样不断被外界刺激训练,有规律的刺激形成条件反射,逻辑经验,甚至意识形态;而没规律的,则撕碎你的情绪、自尊和信仰。我们自己也是实验背景的一部分,对其他人输出酸甜苦辣的各种刺激。

  和ZW讨论过这个问题。现在越来越多的科幻电影倾向于怀疑世界的真实客观性,也许我们仅仅是仿真游戏里的一段代码变量,或某种高级生物培养皿里的线虫,我们以为自由自在,实际被分在不同的实验组和控制对比组,被施予线虫们永远不可能理解的各种实验试剂。ZW照例评价我是邪恶的理工科学男,然后说,如果真是这样,生活好没劲。

  不管落在哪个培养皿,有个线虫会陪着你一直走到最后。

  其实这篇BLOG写的不是理工科技,而是对美女的一篇酸酸的爱情表白,你们现在才发现吗,哈哈。在杭州出差。周末到办公室加班。想老婆孩子了。

BTW:这次给金融BI团队展示即将发布的最新版算法,原本需要运行一个月的算法,ODPS上只运行了70秒。客户很满意。金融贷款的big data算法里面,也会对淘宝卖家进行心理分析,判读其性格特质,通过模型测评他们对假设情景的掩饰程度和撒谎程度

转到CDO部门

  我随ODPS团队转到了集团CDO(首席数据官)部门,做的事情还是那些:分布式并行、海量数据分析、数据仓库、数据挖掘。

  感谢阿里云,这是一家有技术理想的公司。前几天参加年会,看到博士在台上泣不成声,有颇多感触。马云说整个公司从CEO开始全都是不善表达、西装配球鞋的工程师范。

  最近一周在杭州,每天参加各种肉身会和电话会到很晚。周末抽空去了一趟西溪湿地,景色真不错。半年多以来我到杭州出差十几趟,这是第一次有闲心出去玩。