Tag Archives: 算法平台

关于建模思路

  大数据的商业模式,目前能看清楚的有两种:互联网小微金融(参考这里)和精准广告投放(参考这里)。这两项业务的建模团队正是分布式算法产品的主要客户。

  尽管拥有相同的数据和平台,金融团队和广告团队的思路却有差异。例如同样使用逻辑回归,金融BI偏向传统统计学,应用银行业经典的“评分卡”建模,强调严谨的假设验证和细致的特征工程;而广告BI倾向于机器学习方式,把上亿行样本的上万甚至上亿列特征一口气扔进建模算法里面去自动迭代训练,更粗暴,更敏捷。

  技术路线常常源于业务需求。在广告营销领域,通过A/B Test获取反馈的成本较低,模型的更新节奏也比较快,业务方也不关心模型内部细节。而金融风险模型直接作用于真金白银,信息循环沉淀的周期又长达数月,因此建模思路偏保守,模型上线之前风险委员会的review很细致,往往得把所涉及到的每一列特征都讲清楚。

  算法平台团队对此感触很深。前一阵,两个BI团队的数据科学家终于凑到一起开会。交锋很有意思,例如把模型当作白盒还是黑盒来用,再如特征工程中的很多人工操作能否用自动化蛮力替代。

  会上我也说了几句。必须重新审视建模流程的各个环节,也许一些招数其实源于小数据时代计算资源有限导致的妥协。今天我们有了上万节点处理上P数据能力的平台,建模必然面临创新。

准备休假

  这周在北京呆着,准备休几天假。像上次说的,春节之后这段时间太忙,需要充充电。

  刚收到邮件,我在pFind组时申请的商标刚获批准。组里还给我一笔奖金。知识产权的积累是对5~10年以后的长远投资。希望pFind越来越好。

  在工业界一段时间了,回过头看,学术界最大的问题是,常常感受不到哪些点是真实问题。这是过多知识和信息依赖文献阅读造成的。按照张五常的说法:某作者凭空想象给出一个案例,另一位引用,写下注脚,如是者转了三几次注脚,大家就把想象当作事实了!

  结婚纪念日。以往都是在百度上搜索“鲜花”,然后点进去购买。这一次跑到淘宝搜索,按信用排序,最终在一家天猫旗舰店订的。价格便宜了很多,服务体验也好得多。据说这99朵白玫瑰一送去,老婆的同事们就要求她必须请吃饭。一淘刚刚超过百度,成为国内最大的搜索广告商。这次亲身体验,不由冒出好多关于生态环境的感慨。

  上周“标签衍生”验收通过了,这是算法平台第一个大的关键业务系统落地。可是为什么没啥感觉呢?算法平台是个金子塔顶端的项目。无论是业务还是技术,如果没有周边诸多铺垫,肯定搞不成。我和sw说过,处在风口上猪也能飞起来,我特别害怕自己就真是那头猪,仅仅是在恰当的时机坐在了恰当的位置上而已,没有为这件事留下独特的贡献。产品落地了,恐惧却增大了。

  所谓战略,就是想清楚不做什么。真正动脑子思考好难,发现大多数情况下,自己仅仅在转述别人的思想而已。

  这两天和老大们交流。dh点拨我说,顺风顺水却开始焦虑,是因为又碰上台阶了,迈上去人就又成长一些。zn催促我实现说了好久的承诺,动手建个模。所以,休假回来啥事也不理了,就动手做这件事,给zn的承诺是六月底之前出结果。

平台需要生态系统

  ODPS Sprint8发布了。算法平台也随之发布了很多新功能。

  最近8个工作周累计只有1/4时间呆在北京,剩下的时间都在杭州。几乎每周都是周二飞到杭州,周末再飞回来。以至于偶尔在北京办公室露面,旁边同学们都问我:“这次到北京出差打算呆几天?”

  例外是上个月底。每次Sprint发布之前都有这么一个阶段:从Word、Excell、Outlook里,从飞机场和会议室里逃出来。静下心,ssh连上跳板机,svn checkout,vi……写代码、加UT、提review、加班熬夜,重新变成一个程序员。这往往是整个产品周期里,比较平静的一周。

  不过这次Sprint8我出错了,在逻辑回归的命令行指令里写出两个Bug来。不得不在发布后的几天里陷入煎熬,紧急打补丁。前天晚上HotFix折腾到23点。我离开办公室时,数据科学家团队还在继续加班。第二天3个基于我们算法的大数据模型按时上线。出自淘宝的工程团队,执行力很强悍。

  作为平台,拥有生态环境是至关重要的:你有没有冲进客户业务里去,理解并搞定关键问题?反过来,别人能否沉到平台里面来,贡献代码和数据?有多大的器量就有多大的空间。找到靠谱的业务伙伴,应该在旁边摇着扇子、八抬大轿伺候着。

  之前yy在客户现场呆了半年之久,帮客户重构了很多关键业务,获得了“数仓专家”的职业声誉。我去杭州,老大给我的指令是,像yy一样,扎进BI团队,成为合格的”数据科学家”。这事不容易,不过不会比杀小白鼠更难。

  工作上好久没这么发狠了。

  飞机上看完了《质数的孤独》。作者是个粒子物理学博士,处女作就获得斯特雷加奖。这本小说的页码不是连续的,而是质数序列:2,3,5,7……所有文艺作品都涉及孤独,因为孤独很普遍,这一部写得尤其彻底。

杀到一线去,吃自己的狗粮!

  昨晚开会到23:30,漫长的一天。近两个月算法平台进展很快,压力也越来越大。把问题抛出来过一遍,也就放松了。得感谢团队给我成长空间。

  今天收拾行李,继续飞杭州。接下来会在业务一线呆着,和数据科学家们泡在一起。学习金融信用评级,动手做数学建模,“吃自己的狗粮”。

  兴奋,这种感觉有点像当年做pFind的时候,搬着服务器去生物学家那里安营扎寨,和他们一起杀老鼠做实验。以前总结过,交流多,创新就多。对个人也是很好的提高机会。