Category Archives: 流水帐

2013阿里大数据暑期学校开始报名了

  自主研发的ODPS是阿里数据交换平台(DXP)的重要组成部分,支撑着阿里金融淘宝指数数据魔方等关键业务。

  2013阿里大数据暑期学校的主题正是ODPS。我们将从ODPS底层的飞天大规模分布式系统讲起,为同学们分享研发ODPS平台的几项关键技术:平台框架和服务化、跨集群调度、Tunnel数据交换服务、BSP图编程模型、分布式SQL引擎、分布式数据分析和数据挖掘算法。授课的主讲人基本上都是ODPS开发团队一线的技术经理,并邀请了清华大学、中国科学院、浙江大学等知名高校的专家。欢迎相关专业的博、硕士研究生和高年级本科同学报名。名额有限,赶快点击http://102.alibaba.com/

  这次课程中,《分布式大规模数据分析和数据挖掘算法》的主讲人是我们算法平台团队的大牛品数(杨旭);而杭州站特有的《海量数据下数据挖掘实战》的主讲人是我们最主要的客户晓风(朱洪波)。强烈推荐!

阿里技术嘉年华要举行了,我们的主题报告和Workshop

  2013阿里技术嘉年华将于7月13-14日在杭州举行。好多牛人带来技术分享。这里面和我工作直接相关的内容有下面两个:

  13日上午,ODPS团队的高级产品经理 水易(汤子楠)会在大数据主题论坛上做一个报告,介绍ODPS的产品设计思路、主要功能和基础技术架构。开放数据处理服务 (Open Data Processing Service, ODPS) 是基于飞天平台构建的离线大数据存储与分析系统,以云计算服务的方式实现海量数据的存储、分享与离线处理,在数据仓库构建、海量数据统计、数据挖掘、数据商业智能等应用领域有着广阔的应用前景。

  14日下午,算法团队的高级专家 品数(杨旭)会在Tech Loft主持一个workshop,讨论分布式数据分析算法。MapReduce模式在很多算法上已无法达到高效,如何扩展模式并使之与MapReduce统一调度?如何高效实现大数据算法? 怎样定义数据结构? 如何保证开发测试的质量? 算法研发如何与业务紧密结合? 希望更多人参与分享和讨论。

  更多报告内容请参考这里,期待与大家交流。

准备休假

  这周在北京呆着,准备休几天假。像上次说的,春节之后这段时间太忙,需要充充电。

  刚收到邮件,我在pFind组时申请的商标刚获批准。组里还给我一笔奖金。知识产权的积累是对5~10年以后的长远投资。希望pFind越来越好。

  在工业界一段时间了,回过头看,学术界最大的问题是,常常感受不到哪些点是真实问题。这是过多知识和信息依赖文献阅读造成的。按照张五常的说法:某作者凭空想象给出一个案例,另一位引用,写下注脚,如是者转了三几次注脚,大家就把想象当作事实了!

  结婚纪念日。以往都是在百度上搜索“鲜花”,然后点进去购买。这一次跑到淘宝搜索,按信用排序,最终在一家天猫旗舰店订的。价格便宜了很多,服务体验也好得多。据说这99朵白玫瑰一送去,老婆的同事们就要求她必须请吃饭。一淘刚刚超过百度,成为国内最大的搜索广告商。这次亲身体验,不由冒出好多关于生态环境的感慨。

  上周“标签衍生”验收通过了,这是算法平台第一个大的关键业务系统落地。可是为什么没啥感觉呢?算法平台是个金子塔顶端的项目。无论是业务还是技术,如果没有周边诸多铺垫,肯定搞不成。我和sw说过,处在风口上猪也能飞起来,我特别害怕自己就真是那头猪,仅仅是在恰当的时机坐在了恰当的位置上而已,没有为这件事留下独特的贡献。产品落地了,恐惧却增大了。

  所谓战略,就是想清楚不做什么。真正动脑子思考好难,发现大多数情况下,自己仅仅在转述别人的思想而已。

  这两天和老大们交流。dh点拨我说,顺风顺水却开始焦虑,是因为又碰上台阶了,迈上去人就又成长一些。zn催促我实现说了好久的承诺,动手建个模。所以,休假回来啥事也不理了,就动手做这件事,给zn的承诺是六月底之前出结果。

因为信任,所以简单

     今天坐杭州微车队的出租车到机场,快到了才发现现金不够,手机又没有电无法用支付宝。结果师傅和我说了一句:“因为信任,所以简单”,让我回去用支付宝给他。感动坏了。进了机场,找到电源和WIFI,赶紧用支付宝给人家打钱。

  我在机场发了上面的微博。回到家手机充电,才发现这条微博已经被转爆了。这位师傅姓袁,后来又主动给我打了电话,说给他打的数额多了。我说,就是顺便输个整数,没别的意思,感谢对我的信任。很多杭州的朋友和他联系,这几天机场接送人日程全满了,还散了很多单给车队的兄弟们。下周我还会去杭州出差,还打算找他接我。

  微车队是杭州出租车司机的自发组织。通过微信群互相联系。因为超过二百辆车动态调度,预约一般都很准时。安装专门的APP,因此到机场接机出现晚点的话,也能提前应付。车上提供免费WIFI,贴着每个司机的联系方式和支付宝二维码。师傅态度很好,据说有规矩:和客人吵架会被踢出群一段时间。

  如果你和微车队的司机聊天,他们不像北京出租车司机那么喜欢议论政府,倒很像精明的江浙商人,愿意动脑子想办法提供优质服务,建立长久信誉,以此获得更高的收入。

平台需要生态系统

  ODPS Sprint8发布了。算法平台也随之发布了很多新功能。

  最近8个工作周累计只有1/4时间呆在北京,剩下的时间都在杭州。几乎每周都是周二飞到杭州,周末再飞回来。以至于偶尔在北京办公室露面,旁边同学们都问我:“这次到北京出差打算呆几天?”

  例外是上个月底。每次Sprint发布之前都有这么一个阶段:从Word、Excell、Outlook里,从飞机场和会议室里逃出来。静下心,ssh连上跳板机,svn checkout,vi……写代码、加UT、提review、加班熬夜,重新变成一个程序员。这往往是整个产品周期里,比较平静的一周。

  不过这次Sprint8我出错了,在逻辑回归的命令行指令里写出两个Bug来。不得不在发布后的几天里陷入煎熬,紧急打补丁。前天晚上HotFix折腾到23点。我离开办公室时,数据科学家团队还在继续加班。第二天3个基于我们算法的大数据模型按时上线。出自淘宝的工程团队,执行力很强悍。

  作为平台,拥有生态环境是至关重要的:你有没有冲进客户业务里去,理解并搞定关键问题?反过来,别人能否沉到平台里面来,贡献代码和数据?有多大的器量就有多大的空间。找到靠谱的业务伙伴,应该在旁边摇着扇子、八抬大轿伺候着。

  之前yy在客户现场呆了半年之久,帮客户重构了很多关键业务,获得了“数仓专家”的职业声誉。我去杭州,老大给我的指令是,像yy一样,扎进BI团队,成为合格的”数据科学家”。这事不容易,不过不会比杀小白鼠更难。

  工作上好久没这么发狠了。

  飞机上看完了《质数的孤独》。作者是个粒子物理学博士,处女作就获得斯特雷加奖。这本小说的页码不是连续的,而是质数序列:2,3,5,7……所有文艺作品都涉及孤独,因为孤独很普遍,这一部写得尤其彻底。

杀到一线去,吃自己的狗粮!

  昨晚开会到23:30,漫长的一天。近两个月算法平台进展很快,压力也越来越大。把问题抛出来过一遍,也就放松了。得感谢团队给我成长空间。

  今天收拾行李,继续飞杭州。接下来会在业务一线呆着,和数据科学家们泡在一起。学习金融信用评级,动手做数学建模,“吃自己的狗粮”。

  兴奋,这种感觉有点像当年做pFind的时候,搬着服务器去生物学家那里安营扎寨,和他们一起杀老鼠做实验。以前总结过,交流多,创新就多。对个人也是很好的提高机会。

Cookie、RTB、大数据、逻辑回归和文艺复兴技术公司

  3.15晚会,DSP几乎全军覆没,Cookie这个词热起来,话题也涉及到RTB和大数据产业。好多人问,啥叫RTB?啥叫DSP?

  最近我们算法平台正在应用于在线广告业务,因此写篇BLOG介绍点RTB领域的业务常识和八卦。后面的所有内容,都源于网上已公开的信息。

  对于Cookie技术,网上已有很多解释,就不再详述了。总之,如果网站设计规范,即使第三方在投放广告位里放置代码,也只能操作它自己的Cookie,不可能读写宿主站的Cookie并获得登录密码和个人信息。

  Cookie的一个常见用途就是收集用户历史行为,用于个性化推荐。比如豆瓣网很受欢迎,因为它的算法能根据每个人的历史数据,向我们推荐可能感兴趣的书、电影、音乐。

  更热门的应用就是精准投放广告,例如这两年很受关注的RTB。典型的RTB流程如下:

  1、张三点击网页“尿布大全”(往往正是通过Cookie识别出访问者是张三);
  2、该网页某广告位向广告平台请求:张三来了,需要合适的广告;
  3、广告平台向DMP发出请求:张三啥情况?
  4、DMP回复广告平台:张三是个美食家,他有个1岁的宝宝;
  5、广告平台向所有DSP公告:这里有个“吃货”&“孩他爸”、在浏览“尿布大全”、谁投放广告?
  6、DSP根据信息(如广告位置、“尿布大全”、 “吃货”&“孩他爸”等)决定是否出价,出价多少;
  7、广告平台决定出价高的DSP投放广告。

  所有交互计算要在Web页面返回给用户前的100毫秒内完成,对参与各方的技术要求很高。这个流程中DMP扮演着重要角色,它负责提供访问者的消费特点,这里就需要预先进行数据挖掘。注意,规范情况下,广告平台不应该向DSP透露张三的身份。

  在线广告行业,预测用户点击率(CRT)是一个核心问题。问题的输入往往需要上百万维特征。Google、Facebook早期都试图引入高维建模算法,但最后殊途同归都用的是逻辑回归算法。这是和逻辑回归算法本身的很多特点有关的,例如:

  1、变量范围是[-∞ ,+∞];同时和其他“广义线性回归”相比,值域是[0,1],因此形式上类似一个概率函数,适合分类问题;
  2、基本上可看作一个单层的人工神经网络,所有训练人工神经网络的训练方法都适用;
  3、可扩展性好,适合海量的特征当特征数目超过百万时,利用训练最大熵模型的IIS方法可直接用于训练逻辑回归;
  4、online learning,能够进行增量学习;
  5、线性模型,在金融信用领域,往往利用可解释的特点给出评分卡信息。Google内部也要求“所有效果变化可解释”。

  最大熵的建模计算量很大。面对上百万列特征、上百亿行记录的海量数据,如何通过分布式集群快速训练模型,就成了关键性问题。在这个领域最早取得技术突破的是Della Pietra兄弟。这两个人后来退出学术界,加入了传说中的华尔街赚钱机器:文艺复兴技术公司 (Renaissance Technologies)。

  文艺复兴科技公司的创始人是James Simons。他早年是顶尖数学家,提出了著名的Chern-Simons定理,1976年获得数学界的皇冠——维布伦奖(Veblen)。 1982年,Simons投身金融领域,雇佣大量毫无金融背景的数学家和物理学家,开发算法模型,对股票和期货进行自动交易。文艺复兴科技公司管理的大奖章基金从1989到2007年间的平均年收益率高达35%,超过了巴菲特。

  关于James Simons和文艺复兴技术公司的事,我在知乎上回答过一个相关的问题。

再见,Google Reader

     Since October 26, 2005 you have read a total of 31,425 items.

  这是我在Google Reader这些年的历程,没想到如今要说再见。这帮家伙真是买椟还珠。上次有这种感觉,是微软放弃Spaces

  今天网上到处都是对Google Reader之死的哀叹,以及对Google高层的愤怒。Google Reader的前产品经理Brian Shih在Quora上的文字,又要变成经典了。这虽然是一个有技术门槛小众产品,用户却大多是5年以上的互联网用户,行业的中坚力量,其中很多是有影响力的BLOG作者,也是如今在微博和微信上比较受关注的帐号。所以叹息的共振很强。

  据说feedly和鲜果都乘机推出了Google Reader搬家的服务。然后服务器都被挤崩溃了。上次说过,最近我刚好正在手机上试用几个App

  我的读者里也有很多是通过Google Reader订阅的,为了保持联系,请关注我的新浪微博帐号 @还是地雷。我的Blog还会写下去。感谢您的关注。

  BTW:刚刚飞回北京,春节之后“打飞的”很勤。有点忙有点累,读者们可能觉得这个BLOG技术上干货少了,不好意思。不过我在“憋大招”,敬请期待。

在沙尘暴中的降落

  刚飞回北京。早上杭州天气特别好,高速一路畅通,航班也没晚点,照例在登机口偶遇了同事,心情不错。可惜猜中了开头,没猜中结尾。

  越接近北京越颠簸,在天上多绕了半小时才开始降落,接近地面时上窜下跳,搞得很多乘客都喊头晕恶心。我就坐在一位空姐旁边,降落后她松了一口气,小声说,其实差一点备降天津。

  这还不算完,飞机还没停稳就感觉沙尘暴忒厉害,吹得机身不断晃。机长广播说,风力太大,客梯车无法靠过来。机场发布了橙色预警,跑道关闭,后续飞机都备降到石家庄去了。困了两个钟头,预警级别才降为黄色,总算从憋闷的机舱里逃出来。

  回来一看新闻,11点40分首都机场风速高达30米/秒风力达11级;11点46分T3航站楼屋顶局部被瞬间超过11级以上的强旋风掀开;12点20分天津机场已按操作规程固定的飞机被强阵风吹偏机头,撞上了廊桥……这么说起来,我真算幸运的。

  降落前剧烈颠簸,好多念头闪过:先想到家人,然后又觉得ODPS和算法平台的工作刚展开……接下来冒出来的居然是:最近太忙太懒,BLOG好久没更新了。

  好吧,我知道错了,很多事儿既然想到了,就该马上做的。例如写这篇BLOG。再例如下周休假一天,帮老婆跑跑建材城,和老妈一起看看孩子。