Category Archives: 打工日记

杀到一线去,吃自己的狗粮!

  昨晚开会到23:30,漫长的一天。近两个月算法平台进展很快,压力也越来越大。把问题抛出来过一遍,也就放松了。得感谢团队给我成长空间。

  今天收拾行李,继续飞杭州。接下来会在业务一线呆着,和数据科学家们泡在一起。学习金融信用评级,动手做数学建模,“吃自己的狗粮”。

  兴奋,这种感觉有点像当年做pFind的时候,搬着服务器去生物学家那里安营扎寨,和他们一起杀老鼠做实验。以前总结过,交流多,创新就多。对个人也是很好的提高机会。

在沙尘暴中的降落

  刚飞回北京。早上杭州天气特别好,高速一路畅通,航班也没晚点,照例在登机口偶遇了同事,心情不错。可惜猜中了开头,没猜中结尾。

  越接近北京越颠簸,在天上多绕了半小时才开始降落,接近地面时上窜下跳,搞得很多乘客都喊头晕恶心。我就坐在一位空姐旁边,降落后她松了一口气,小声说,其实差一点备降天津。

  这还不算完,飞机还没停稳就感觉沙尘暴忒厉害,吹得机身不断晃。机长广播说,风力太大,客梯车无法靠过来。机场发布了橙色预警,跑道关闭,后续飞机都备降到石家庄去了。困了两个钟头,预警级别才降为黄色,总算从憋闷的机舱里逃出来。

  回来一看新闻,11点40分首都机场风速高达30米/秒风力达11级;11点46分T3航站楼屋顶局部被瞬间超过11级以上的强旋风掀开;12点20分天津机场已按操作规程固定的飞机被强阵风吹偏机头,撞上了廊桥……这么说起来,我真算幸运的。

  降落前剧烈颠簸,好多念头闪过:先想到家人,然后又觉得ODPS和算法平台的工作刚展开……接下来冒出来的居然是:最近太忙太懒,BLOG好久没更新了。

  好吧,我知道错了,很多事儿既然想到了,就该马上做的。例如写这篇BLOG。再例如下周休假一天,帮老婆跑跑建材城,和老妈一起看看孩子。

准备休假

  今晚总算把PyUnit里上百FT补齐了。9点回到家吃老妈做的面条,真幸福。近几个月像连续的遭遇战,感谢所有并肩战斗的人:xlib团队、ODPS团队、算法平台团队和测试团队、还有妻子和老妈。很多场景已铭记在心。

  昨天老婆收到新单位的offer,今天xlib关于sprint7发布的工作收敛,明天房子过户,后天……终于……要开始传说中的休假。

  “旅游”,就是出去到处跑;而所谓“度假”,是找个山清水秀的地方呆着不动。是的,我是去度假的,不是去旅游的。就想每天陪女儿在泰国的白沙滩上挖沙子。说到这个,最近忙得令人发指,《囧泰》和《少年派》都没机会去电影院看:(

  充好电回来再和大家并肩继续战斗。顺便预告一下,ODPS sprint7预计22日发布,敬请期待。

Base城市:首都机场T3航站楼

  昨天折腾到零点才到家。在机场遇到好多麻烦事,手机又没电,正在到处想办法借手机充电器,看到一帮同事旋风般冲去安检。恍惚……愣神……没来得及截住问有没有充电器。阿里应该包机每周定期往返。不过如果这架飞机挂了,会损失大量产品经理。

  前一阵在内部wiki上整理团队资料表格,给dh填base区域时恶搞地填了一个“首都机场T3航站楼”。到昨天为止,今年出差飞行已经超过30000公里了。现在看我自己也差不多base在航站楼了。

  xlib第一期随ODPS Sprint6发布,算是初步有成果出来。客户的更多需求也涌过来,sprint7要推出更多牛算法,争取在各个BI团队的数据挖掘end2end打通。

  淘宝时光机这个Big Data产品初露锋芒,产品经理是一个90后刚刚入职的小姑娘。电视台居然都来采访她,内网更是盖高楼。接下来alidata会推出更多好玩的东西,我们ODPS当然会是其中的重要支撑。

  大事一件件落停,打算给自己放个假,出去旅游一趟。

ODPS Sprint6发布

  今天xlib一期随着ODPS Sprint 6正式发布到生产。最后的回归测试马上就要跑完了。对北京和杭州两边而言,这都是漫长、疲惫又兴奋的一天。

  这两天在杭州不断和各个BI团队开会。满脑子都是“业务场景”、“E2E打通”和“产品落地”这样的话,感觉自己都有点强迫症。已经不知不觉深深沉浸在产品经理的角色里了。

  亲,最重要、最慢、最难、最不好实现的大数据算法让俺们来搞定!

转到CDO部门

  我随ODPS团队转到了集团CDO(首席数据官)部门,做的事情还是那些:分布式并行、海量数据分析、数据仓库、数据挖掘。

  感谢阿里云,这是一家有技术理想的公司。前几天参加年会,看到博士在台上泣不成声,有颇多感触。马云说整个公司从CEO开始全都是不善表达、西装配球鞋的工程师范。

  最近一周在杭州,每天参加各种肉身会和电话会到很晚。周末抽空去了一趟西溪湿地,景色真不错。半年多以来我到杭州出差十几趟,这是第一次有闲心出去玩。

软件研发和团队交流

  下面每一段话都源于近半年的亲身经历,很多话是拥有十几年软件经验的老兵的原话。

  当了pm,尤其是没有界面不需要Axure的底层Web Service的pm,依赖一支巨大的分布式团队,面对不止一家强势客户,交流就成了最关键的任务。半年前我还是中科院里一个不折不扣的技术宅男,与生人聊非技术话题有障碍,害怕给陌生人打电话,外出聚餐拿菜单看半天也不知道点什么。幸运的是,跳槽后碰到几位好上级,每次掉进坑里都能获得诚恳的建议,甚至专门帮我复盘。

  我有每天记录想法的习惯,很多内容整理之后就发BLOG。但这个“团队交流”的主题等了很久。涉及公司内部信息,无法带上具体场景,很多血泪经验就成了糖水大道理。也因为积压太久,即使只放是糖水大道理,慢慢也存了很多段。不管怎样还是发出来吧。

  公司一直在剧烈重组。以往我设计软件架构很少考虑人的交流因素。现在算是理解了著名的Conway’s Law: A design reflects the structure of the organization that produced it。这条定律的意思是:什么样的团队组织结构,最终就会开发出一模一样的软件架构。如果有四个团队合作开发编译器,系统最终一定会长成一个四阶段编译器。所以大型软件组织内,在重构系统之前往往先reorg团队。对分布式的团队,更加如此。前一阵很多人在Blog里写分布式团队的交流问题,用了很多招数,例如两边架起摄像头和大屏幕,形成一个虚拟的统一环境。

  到飞天团队,发现与以前在pFind倡导的工程实践没太多区别:SVN、BugFree、定期重构、单元测试、站立会议、代码review……所不同的是执行。飞天主力是微软出来的,有软件工程基因。制度和团队平台给力,就算是大三实习生也能大展拳脚,两三天内完成千核并行复杂算法的剧烈重构和测试。实际上pFind团队规模已经很大了。飞天内很多小team总共才四五条枪,而且大多是本科刚毕业甚至实习生,有些专注于统计机器学习的算法团队,工程产品也非常宏大。这是人际沟通和工程效率问题,不是学术或工程的非此即彼的投资方向选择。对pFind感情很深,希望后继者有勇气和智慧做到我没能做到的。

  敢提出傻问题是有责任心的表现。很多新人、边缘人、接口人都有交流障碍:不敢把点子或疑问拿到桌面上来,借口是:还不了解情况,等我彻底变成“自己人”再说。怕问错了显得不够牛,或者问对了牵涉别人的利益。明哲保身是动物本能,但它仅仅在黑暗森林低级生态环境下才算是最佳策略,在一个有序、专业、理性的团队里,过分谨小慎微只会显得无能,让别人放弃对你分享信息。反过来,直言不讳也是一种压力测试,可以借以观察团队氛围是否正常。

  tech lead最重要的素质是充分沟通的勇气和器量,“领导和下属之间应该’下棋’而不是’打牌’,在信息对等的情况下决策。尤其是坏消息,必须第一时间告知下属,坏消息往往传得很快,最好让下属从你这里首先获知。”反过来,最愚蠢的举动就是伤害团队对自己的信任。情绪管理、私人利益、交流效率都对信任感造成影响。

  网络公司的技术团队往往被分为前端团队、后端服务团队和基础平台团队。不同类型的团队交流和思考的方式不同。出色的基础平台团队,节奏感往往非常强,知道先做什么后做什么,一开始只做最难最重要的事。

  需求分析的时候,用户经常是在告诉你怎么做(How),这些信息没用,你要问清楚他们的本质需求(What/Why)。用户说要什么就做什么往往死得很惨。福特说:“如果最初我去问顾客想要什么,他们一定会说:一匹更快的马”。

  技术->项目->产品->服务,这是个漫长的进化过程。和一个陌生的技术团队聊,最重要的就是评估他们在这条打怪升级的不归路上位于何处。已经拥有成熟服务的团队会问你:“需要多大程度的可用性?我们的服务目前能达到五个 9,也就是一年无故停机最多5分钟。”(关于服务怎么运维,现在DevOps讨论很热,推荐看看这个

各个公司的数据产品,“指数”里的“中国好声音”

  最近在玩各互联网公司的公开数据产品。例如淘宝指数百度指数新浪微博指数

  前两天和BD、业务架构师一起见房地产行业的客户,对方一上来气场很强,真是高帅富。我随手用这几个“指数”查了查,问:“你们的潜在客户群里,男性占90%以上,30~35岁的占70%以上,消费层级很高,客户的价值实在太赞了。不过,除了你们已经有项目的城市,为什么海南有那么多潜在客户?你们在那里布局拿地了吗?”他们很惊奇,赶紧挤到电脑前来看。

  “指数”产品们虽然很初级,但有了这种对数据威力的展示,就能让很多传统行业用户明白转移到云计算技术、建立数据仓库并最终参与数据集市交易的重要性。

  下面几张图是今天分别在百度指数、新浪微博指数和淘宝指数上查询“中国好声音”得到的基础数据曲线。你从中看到了什么?


“中国好声音”@百度指数


“中国好声音”@新浪微博指数


“中国好声音”@淘宝指数

大数据和互联网金融模式

  一直在关注大数据和金融模式创新。最近这方面的媒体报道多起来,例如前两天《21世纪经济报道》对阿里金融业务的报道。今天又找到了几篇相关报道。

  “中国金融40人论坛”的一篇课题报告《互联网金融模式研究》。其中,关于云计算尤其是Big Data技术在互联网金融模式中所起的关键作用,有这么一段描述:

     ……

     二是在信息处理方面,社交网络平台生成和传播信息,特别是对个人和机构没有义务披露的信息;搜索引擎技术对信息进行组织、排序和检索,能缓解信息超载问题,有针对性地满足信息需求;云计算服务保障海量信息高速处理能力。总的效果是,在云计算的保障下,资金供需双方信息通过社交网络揭示和传播,被搜索引擎组织和标准化,最终形成时间连续、动态变化的信息序列。由此可以给出任何资金需求者(机构)的风险定价或动态违约概率,而且成本极低。正是这种信息处理模式,使互联网金融模式替代了现在商业银行和证券公司的主要功能。

     ……

  这篇报告认为,除了“Big Data”,“移动支付”和“信息的充分发布和匹配”是互联网金融模式的另两个核心。这将使金融交易的门槛大大降低,容易解决中小企业融资、民间借贷、个人投资渠道等难题。而传统形式的银行、券商和交易所等金融中介,将受到冲击。(如果你注意看了昨天的科技新闻,支付宝开始在移动支付领域发力)。

  另外《环球企业家》刚发表了一篇《阿里金融凶猛:数据为王工厂化运作》,里面是这么写的:

     阿里巴巴不平凡的金融抱负,让一些银行感到不安

     ……

     支撑起这种工厂化运作的,是阿里小贷公司背后强大的信息系统和数据支持。

     据阿里小贷公司相关人员介绍,小微企业大量数据的运算依赖互联网的云计算技术,不仅保证其安全性和效率,也降低了运营成本,同时简化了小微企业融资的环节,可以为小微企业提供365*24的全天候金融服务,“都是基于国内小微企业数量庞大,且融资需求旺盛的特点设计的。”

     与同样以微小贷款著称的包商银行相比,截至2012年6月末,包商银行累计发放微小企业贷款20.90万笔,金额326.06亿元。同期阿里小贷公司已累计为超过13万家小微企业提供融资服务,贷款总额超260亿元,不良率为0.72%。

     ……