把事做成

  前一阵参与组织阿里巴巴大数据暑期学校,自然会和参加的同学们聊起求职。我发现90%的同学都希望进数据建模团队,而不是数仓团队或分布式平台开发团队。我猜很多同学没踅摸过职业成长,仅仅因为数据分析师高端大气上档次,而程序员听起来很屌丝。

school
阿里大数据暑期学校,晓风正在和同学们讨论PCA和SVD算法

  怎么说呢,BI团队当然个个都是精英,但并不像很多同学想的那样高帅富:数据分析师负责阳春白雪的统计机器学习,剩下的编程、调BUG、看机器这种粗活自有旁人打理。事实上,无论哪个团队都没有“旁人”跑龙套擦屁股,你得挽起袖子把一件事从头做到尾,十八般武艺样样皆通。举几个我们阿里数据平台部门的几个人当例子:

  数据挖掘团队的晓风,数学功底当然不用多说,然而他也是一个C++和分布式编程老手,从当年的ACE、ICE、DCOM到现在的Hama、GraphLab都会。

  基础数据团队的市丸,数据仓库那些生产业务当然不在话下,同时他也用MR和BSP编程模型开发了不少能处理上亿行的数据样本的大规模分布式算法,例如SVD和Pagerank。

  产品团队老大玄澄,麾下一群古灵精怪的美女PD,做出淘宝指数、数据魔方、淘宝时光机、淘宝日历APP……他整天玩乐高玩具,体验各种新鲜玩意儿(例如基因测序),办公区供着乔布斯牌位,踅摸用户体验创新……其实,人家是北大数学系的。

  至于俺们ODPS团队,很多人也都是十项全能,我就不自吹自擂了。

  就我的经验,对个人成长最有帮助的职位,往往正是那些最苦逼的、点灯熬油、枯燥容易出错的活儿。例如我们这里专门负责半夜值班盯住数据生产基线的batman团队,那可不是随便什么新兵蛋子就能混进去的。报名上百人,只选了十几个,都是各团队最牛最靠谱的业务骨干,这些人正是公司的重点栽培对象。上次去杭州出差,我特意混进去和蝙蝠侠团队一起值了一次夜班,一晚上的收获比正常情况下几周都多。

batman
传说中的蝙蝠侠团队

  主动扎到最复杂的、接触全局的业务里去,耐心一点,挽起袖子做好水面以下的力气活,为团队提供独特贡献,把事做成。这才是最快的成功路径。想加入互联网公司的年轻人一定要弄清楚,这个行业的业务核心就是编程,你首先必须是个合格的程序员,再谈其他。这就和空军里没有开过飞机的人没资格升师长、海军里没在甲板上起降过飞机的人没资格升航母舰长一个道理。

  最后打广告,阿里数据缺人。数据分析师,数仓工程师,算法开发工程师,分布式平台开发工程师,测试和配置管理……欢迎找我内推。

数据挖掘,微博,股票,星座和新年假期

  SNS数据挖据热度持续不降。

  前一阵数托邦工作室(DATATOPIA)利用微博数据进行数据挖据,发表了这篇关于《小时代》观众人群的分析报告,获得了很大的反响。根据数据比较,《小时代》观众的平均年龄非常低,很大比例来自二线城市,很大比例是女性,很大比例用iphone,很大比例喜欢《快乐大本营》。网上很多批评《小时代》的北上广大叔未必真正了解这群消费者。我在淘宝指数和百度指数上验证了一下,和文中的统计结论差不多。

  上个月奥巴马被刺杀的假新闻引发股灾,也是由于数据挖掘自动触发导致的。越来越多的投资公司实时监控社交媒体用于股票量化交易(据研究,Twitter情绪和股票走势之间有7分钟的提前量)。前一阵光大银行的投资事故占满报纸头版。这两天纳斯达克系统又崩溃了,最近这一两年事故真多,都是高频交易惹的祸。再加上“互联网金融”让传统银行和基金坐立不安。互联网屌丝正在颠覆金融高帅富。

  说到数据分析,《福布斯》杂志总结了Top 500的亿万富豪,发现处女座最多。被大黑特黑的处女座们一片欢呼!较真一点的话,子柳在知乎上的一个回答中提到,关于星座倾向性,必达团队曾严肃分析过淘宝消费数据,结论是“出生月份与行为模式无关”。由子柳的解释可以大概猜测到,中国的富翁中可能是天蝎座较多。中西方差异源于圣诞和春节之间的时间差,你懂的。

黑人买劳斯莱斯,妓女生产军用高精瞄准仪

  上次提到用豆瓣阅读买了彼得·德鲁克的《旁观者》,一开头就很有趣,当时我是这么写的:“第一章,1923年,德鲁克14岁差8天,参加维也纳共和日大游行,独自走在‘社会主义青年军’方阵最前面,担任红旗旗手,却在游行中突然脱离队伍回家。他是天才,14岁就能清醒。如果当时德鲁克选择从众,变成一个小纳粹,今天就看不到《卓有成效的管理者》了吧。”

  在那之后工作就紧张起来,一直空闲没往下看。直到上次天气不好航班取消,转高铁回北京。在火车上终于有时间把这本书全读完。很多细节很好玩。例如彼得·德鲁克还在英国投资银行工作时,那位永远只买卖克莱斯勒一只股票的套利高手,却不知道这是个汽车公司。

  书的最后阶段,浓墨重彩描述了通用汽车公司的管理层。

  经济大萧条时代,劳斯莱斯亏损严重准备清盘。一位中层闯入高管会议,要求给自己10分钟。按照他的办法,1933年劳斯莱斯获得盈利。他也就成为总经理。扭亏的办法是:把车卖给黑人。由于种族歧视,有钱的黑人无法进入白人上流俱乐部。但劳斯莱斯能帮他们显示身份。然而,当时劳斯莱斯公司拒绝卖车给黑人,黑人往往得找白人代买。

  也就是这位经理,在二战时期顶住各种压力雇佣了2000名文盲黑人妓女进入生产线,生产军用高精瞄准仪。他找到了各种方法让生产保质保量完成……可惜他英年早逝,要不然可能会是通用下一代总经理。

  《旁观者》描述了很多彼得·德鲁克同时代的同类人,也就是被迫移民美国的欧洲精英(例如基辛格和他的导师就是犹太难民,并且参军打回欧洲去,再例如前面那位拯救劳斯莱斯的经理也是德国移民)。美国二战前后为什么走向强盛?因为吸纳到大量顶尖人才,普通社区大学里教政治学课程的讲师,也许就是当年参加过巴黎和会的外交家。

天河这种大型机还有存在的必要吗?

  在知乎上回答了一个问题“有了分布式计算平台后,像天河这种大型机还有存在的必要吗?”

  超级计算机其实也是分布式集群架构,和普通集群很类似,编程模型都是MPI、Mapreduce那一套。稍有不同的是:

  1.超级计算机用infiniband背板提高各节点间的网络IO,常规分布式集群一般都是千兆、万兆网卡。
  2.超级计算机一般会配高档的磁盘阵列,而GFS+Mapreduce方案底层基于挂在各节点上的普通硬盘。
  2.超级计算机会使用更先进的CPU和GPU,更多内存。
  3.由于发热强劲,很多超级计算机采用水冷。

  从这些细节可以看出:

  1.超级计算机更适合计算密集型作业,如果用MPI算核物理、天体物理、蛋白质折叠、渲染《阿凡达》、求解普通PC上需要几千万年的迭代方程,那么就应该用超级计算机。反过来,分布式集群Mapreduce适合IO密集型的作业,加上成本低,可以把集群规模搞得很大,因此最适合扫描过滤海量的数据,例如互联网行业的经典应用:为搜索引擎创建全网Web页面的索引。

  2.超级计算机造价更昂贵,维护成本也高,甚至每小时电费就得上万元。记得我以前做蛋白质搜索引擎的时候,在某台国内最大的超级计算机之一跑过一个80分钟的job,花了老板5000多块上机费(因为我们有项目合作,人家已经给我们打了很低的折扣了)。不过这些作业用MapReduce在普通分布式集群上跑,跑了好几天。

  云计算是建立在廉价分布式硬件+牛B的软件系统设计上,在商业上越来越成功。所以正在抢占传统超级计算机的用户市场。例如阿里云刚刚和国内的动画公司合作渲染出来的《昆塔》,计算量是阿凡达的四倍。不过就我所知,各大传统超算中心其实依然是排队、忙不过来的。随着国内经济的升级,很多造船、石油、材料、生物、天体物理、军事领域的计算需求都很强烈,这一类计算密集型任务,性能和时间往往比成本更重要。

产品经理应该怎么起步

  在知乎上回答了一个问题“想成为产品经理,应该怎么起步?”

  1.找到一个有意义的项目,跳进去;

  2.把开发和测试同学不想做的活儿都做了。比如写文档、出席无聊会议、收集客户意见、写部署和测试用的一次性python小脚本、团队熬夜加班的时候给大家买夜宵……;

  3.花大量的时间,系统深入地思考你们正在做的产品(警告你,大多数人在这一步会卡壳,停留在协调人和团队秘书的角色上),整理成文字;

  4.向团队展示自己的思考逻辑和结果,说服他们做某事,给项目和产品的未来带来好处。

  我进入现在在做的ODPS组的方法是,在他们都在客户现场加班的时候,参加进去每天一起加班到半夜。要来上百页的用户手册,把里面几百条指令一条一条动手试用了一遍。然后花两天时间写了一个教新用户上手的《入门手册》,并且提交了若干个测试中发现的bug。

  再早,还在pFind蛋白搜索引擎的时候,去生物学家的实验室收集软件需求。就陪着他们杀老鼠,熬夜做实验,每2小时闹钟叫醒添加试剂并记录数据,在高辐射或剧毒环境下处理试验样品。最重要的,和他们一起体会,因为生物信息数据软件设计考虑不周导致前面的一切都必须再做一遍时,那种巨大的愤怒和无奈。

  别以为自己是当诸葛亮,掐指一算,羽扇一指,千军万马就冲杀上去了。产品经理,是一线领头冲锋的工兵,要给身后的兄弟们搭桥、排雷、探路。

  最近算法平台产品推进好纠结,我得拜一拜乔帮主。

jobs

周末ADC见!

  这周末的阿里技术嘉年华,貌似很多老朋友都会参加。14日“大数据技术与应用-A”的Workshop,我是现场主持人,欢迎大家来聊天。

  我们在招人,alidata算法团队为缺人痛苦,北京杭州两边都是,有数学背景又喜欢写分布式程序的同学,赶快找我帮你内部推荐!

workshop

的确是被黑了,请亲友们注意安全

  上次BLOG提到,怀疑自己被黑了。最近一直在查这件事。

  今天收集到一些信息,请公司里的安全高手帮忙看了看。(上一篇BLOG其实是我做的实验)。确认的确是被黑了。黑客还挺狡猾,在程序里设置了判断,从Cookies发现是我本人在访问这个网站,则一切显示正常,否则就显示乱七八糟骗人的内容。

  我的各种密码也许已经泄漏,昨天发现有人在试验修改我工作帐号的设置。各位亲友如果对从我的网站、邮箱、旺旺、手机发出来的信息有疑惑,请及时和我本人联系。建议大家更换自己常用的重要上网密码。

  WUWU~,这个世界真不安全,我还是回火星吧。

2013阿里大数据暑期学校开始报名了

  自主研发的ODPS是阿里数据交换平台(DXP)的重要组成部分,支撑着阿里金融淘宝指数数据魔方等关键业务。

  2013阿里大数据暑期学校的主题正是ODPS。我们将从ODPS底层的飞天大规模分布式系统讲起,为同学们分享研发ODPS平台的几项关键技术:平台框架和服务化、跨集群调度、Tunnel数据交换服务、BSP图编程模型、分布式SQL引擎、分布式数据分析和数据挖掘算法。授课的主讲人基本上都是ODPS开发团队一线的技术经理,并邀请了清华大学、中国科学院、浙江大学等知名高校的专家。欢迎相关专业的博、硕士研究生和高年级本科同学报名。名额有限,赶快点击http://102.alibaba.com/

  这次课程中,《分布式大规模数据分析和数据挖掘算法》的主讲人是我们算法平台团队的大牛品数(杨旭);而杭州站特有的《海量数据下数据挖掘实战》的主讲人是我们最主要的客户晓风(朱洪波)。强烈推荐!

李朔取蔡州,几何原本,书房,旁观者,介质

  最近经常半夜在书房里翻老妈的旧书。

  昨晚偶尔浏览司马光的李朔取蔡州那一段,描写当然非常精彩。不过如果只看这些,视野很有限。应该再往前翻翻,从唐宪宗任命严缓为招讨使开始看:武元衡被刺杀,韩弘养寇自重,李光颜刚勇奋战,裴度经略全局……

  明朝徐光启翻译欧几里德的《几何原本》,除数学上的贡献。译本语言水平非常高。创造了很多此前汉语中不存在的专业词汇,如:点、线、直线、曲线、平行线、角、直角、锐角、钝角、三角形、四边形。徐光启在译序里这么写:“《几何原本》者,度数之宗,所以穷方圆平直之情,尽规矩准绳之用也。”

  现在大家总是幻想如果明朝朝廷采纳徐光启的上书,大量制造并装备西式火炮,东北前线与满族的战争的结果是否会不同。其实这是制度问题,不是技术和装备问题。即使不用火器,明朝军队的装备和人数也比努尔哈赤的军队好。更早一点,戚继光与倭寇作战时,就已经发现对方的铁炮(由葡萄牙人传入日本的火绳枪)威胁很大。由于后勤质量问题,明朝这边的鸟铳经常炸膛,因此被戚继光放弃。

  在微博上看到的,NIGELLA的书房。以前说过我的梦想是一个大书房

study

  通过豆瓣阅读购买电子书,最近正在看《旁观者》。德鲁克说他曾认真研究过大学开设的课程,发现其中只有两门对培养管理者有用:短篇小说写作和诗歌赏析。书店里管理励志的书堆成山,包括德鲁克自己的那几本经典,对所谓管理者未必有用。效果还真有可能比不上他这本文艺腔的回忆录。第一章,1923年,德鲁克14岁差8天,参加维也纳共和日大游行,独自走在“社会主义青年军”方阵最前面,担任红旗旗手,却在游行中突然脱离队伍回家。他是天才,14岁就能清醒。如果当时德鲁克选择从众,变成一个小纳粹,今天就看不到《卓有成效的管理者》了吧。

  以前BLOG写过,如果电子书替代实体书,我的书房梦想就有点尴尬。说到实体书和电子书,大多数人认为只是阅读体验和个人习惯问题。如果想深入思考介质和内容的关系,建议看看Tinyfool写的这篇《书的历史与未来——从介质、内容和表现形式的相互影响谈起》。王兴有一次说,中国所谓四大发明,三项都与信息技术有关