直拖到最近两天,我才从Google Reader迁移到feedly。也提醒BLOG读者别忘记从Google Reader迁移到替代产品。7月1日就不能用了。这些天各种Reader都在抢客户。
Category Archives: 流水帐
2013阿里大数据暑期学校开始报名了
自主研发的ODPS是阿里数据交换平台(DXP)的重要组成部分,支撑着阿里金融、淘宝指数、数据魔方等关键业务。
2013阿里大数据暑期学校的主题正是ODPS。我们将从ODPS底层的飞天大规模分布式系统讲起,为同学们分享研发ODPS平台的几项关键技术:平台框架和服务化、跨集群调度、Tunnel数据交换服务、BSP图编程模型、分布式SQL引擎、分布式数据分析和数据挖掘算法。授课的主讲人基本上都是ODPS开发团队一线的技术经理,并邀请了清华大学、中国科学院、浙江大学等知名高校的专家。欢迎相关专业的博、硕士研究生和高年级本科同学报名。名额有限,赶快点击http://102.alibaba.com/
这次课程中,《分布式大规模数据分析和数据挖掘算法》的主讲人是我们算法平台团队的大牛品数(杨旭);而杭州站特有的《海量数据下数据挖掘实战》的主讲人是我们最主要的客户晓风(朱洪波)。强烈推荐!
阿里技术嘉年华要举行了,我们的主题报告和Workshop
2013阿里技术嘉年华将于7月13-14日在杭州举行。好多牛人带来技术分享。这里面和我工作直接相关的内容有下面两个:
13日上午,ODPS团队的高级产品经理 水易(汤子楠)会在大数据主题论坛上做一个报告,介绍ODPS的产品设计思路、主要功能和基础技术架构。开放数据处理服务 (Open Data Processing Service, ODPS) 是基于飞天平台构建的离线大数据存储与分析系统,以云计算服务的方式实现海量数据的存储、分享与离线处理,在数据仓库构建、海量数据统计、数据挖掘、数据商业智能等应用领域有着广阔的应用前景。
14日下午,算法团队的高级专家 品数(杨旭)会在Tech Loft主持一个workshop,讨论分布式数据分析算法。MapReduce模式在很多算法上已无法达到高效,如何扩展模式并使之与MapReduce统一调度?如何高效实现大数据算法? 怎样定义数据结构? 如何保证开发测试的质量? 算法研发如何与业务紧密结合? 希望更多人参与分享和讨论。
更多报告内容请参考这里,期待与大家交流。
准备休假
这周在北京呆着,准备休几天假。像上次说的,春节之后这段时间太忙,需要充充电。
刚收到邮件,我在pFind组时申请的商标刚获批准。组里还给我一笔奖金。知识产权的积累是对5~10年以后的长远投资。希望pFind越来越好。
在工业界一段时间了,回过头看,学术界最大的问题是,常常感受不到哪些点是真实问题。这是过多知识和信息依赖文献阅读造成的。按照张五常的说法:某作者凭空想象给出一个案例,另一位引用,写下注脚,如是者转了三几次注脚,大家就把想象当作事实了!
结婚纪念日。以往都是在百度上搜索“鲜花”,然后点进去购买。这一次跑到淘宝搜索,按信用排序,最终在一家天猫旗舰店订的。价格便宜了很多,服务体验也好得多。据说这99朵白玫瑰一送去,老婆的同事们就要求她必须请吃饭。一淘刚刚超过百度,成为国内最大的搜索广告商。这次亲身体验,不由冒出好多关于生态环境的感慨。
上周“标签衍生”验收通过了,这是算法平台第一个大的关键业务系统落地。可是为什么没啥感觉呢?算法平台是个金子塔顶端的项目。无论是业务还是技术,如果没有周边诸多铺垫,肯定搞不成。我和sw说过,处在风口上猪也能飞起来,我特别害怕自己就真是那头猪,仅仅是在恰当的时机坐在了恰当的位置上而已,没有为这件事留下独特的贡献。产品落地了,恐惧却增大了。
所谓战略,就是想清楚不做什么。真正动脑子思考好难,发现大多数情况下,自己仅仅在转述别人的思想而已。
这两天和老大们交流。dh点拨我说,顺风顺水却开始焦虑,是因为又碰上台阶了,迈上去人就又成长一些。zn催促我实现说了好久的承诺,动手建个模。所以,休假回来啥事也不理了,就动手做这件事,给zn的承诺是六月底之前出结果。
似乎被黑了,求安全大侠支持
发现这个BLOG似乎被黑了,输出的RSS种子里总是带着卖药垃圾信息(也可能是我用的一些SEO插件不对头)。我正在备份数据,做些必要处理。接下来一段时间暂时不更新。
我不太懂安全,哪位安全大侠帮忙给点建议?
因为信任,所以简单
|
今天坐杭州微车队的出租车到机场,快到了才发现现金不够,手机又没有电无法用支付宝。结果师傅和我说了一句:“因为信任,所以简单”,让我回去用支付宝给他。感动坏了。进了机场,找到电源和WIFI,赶紧用支付宝给人家打钱。 |
我在机场发了上面的微博。回到家手机充电,才发现这条微博已经被转爆了。这位师傅姓袁,后来又主动给我打了电话,说给他打的数额多了。我说,就是顺便输个整数,没别的意思,感谢对我的信任。很多杭州的朋友和他联系,这几天机场接送人日程全满了,还散了很多单给车队的兄弟们。下周我还会去杭州出差,还打算找他接我。
微车队是杭州出租车司机的自发组织。通过微信群互相联系。因为超过二百辆车动态调度,预约一般都很准时。安装专门的APP,因此到机场接机出现晚点的话,也能提前应付。车上提供免费WIFI,贴着每个司机的联系方式和支付宝二维码。师傅态度很好,据说有规矩:和客人吵架会被踢出群一段时间。
如果你和微车队的司机聊天,他们不像北京出租车司机那么喜欢议论政府,倒很像精明的江浙商人,愿意动脑子想办法提供优质服务,建立长久信誉,以此获得更高的收入。
平台需要生态系统
ODPS Sprint8发布了。算法平台也随之发布了很多新功能。
最近8个工作周累计只有1/4时间呆在北京,剩下的时间都在杭州。几乎每周都是周二飞到杭州,周末再飞回来。以至于偶尔在北京办公室露面,旁边同学们都问我:“这次到北京出差打算呆几天?”
例外是上个月底。每次Sprint发布之前都有这么一个阶段:从Word、Excell、Outlook里,从飞机场和会议室里逃出来。静下心,ssh连上跳板机,svn checkout,vi……写代码、加UT、提review、加班熬夜,重新变成一个程序员。这往往是整个产品周期里,比较平静的一周。
不过这次Sprint8我出错了,在逻辑回归的命令行指令里写出两个Bug来。不得不在发布后的几天里陷入煎熬,紧急打补丁。前天晚上HotFix折腾到23点。我离开办公室时,数据科学家团队还在继续加班。第二天3个基于我们算法的大数据模型按时上线。出自淘宝的工程团队,执行力很强悍。
作为平台,拥有生态环境是至关重要的:你有没有冲进客户业务里去,理解并搞定关键问题?反过来,别人能否沉到平台里面来,贡献代码和数据?有多大的器量就有多大的空间。找到靠谱的业务伙伴,应该在旁边摇着扇子、八抬大轿伺候着。
之前yy在客户现场呆了半年之久,帮客户重构了很多关键业务,获得了“数仓专家”的职业声誉。我去杭州,老大给我的指令是,像yy一样,扎进BI团队,成为合格的”数据科学家”。这事不容易,不过不会比杀小白鼠更难。
工作上好久没这么发狠了。
飞机上看完了《质数的孤独》。作者是个粒子物理学博士,处女作就获得斯特雷加奖。这本小说的页码不是连续的,而是质数序列:2,3,5,7……所有文艺作品都涉及孤独,因为孤独很普遍,这一部写得尤其彻底。
杀到一线去,吃自己的狗粮!
昨晚开会到23:30,漫长的一天。近两个月算法平台进展很快,压力也越来越大。把问题抛出来过一遍,也就放松了。得感谢团队给我成长空间。
今天收拾行李,继续飞杭州。接下来会在业务一线呆着,和数据科学家们泡在一起。学习金融信用评级,动手做数学建模,“吃自己的狗粮”。
兴奋,这种感觉有点像当年做pFind的时候,搬着服务器去生物学家那里安营扎寨,和他们一起杀老鼠做实验。以前总结过,交流多,创新就多。对个人也是很好的提高机会。
Cookie、RTB、大数据、逻辑回归和文艺复兴技术公司
3.15晚会,DSP几乎全军覆没,Cookie这个词热起来,话题也涉及到RTB和大数据产业。好多人问,啥叫RTB?啥叫DSP?
最近我们算法平台正在应用于在线广告业务,因此写篇BLOG介绍点RTB领域的业务常识和八卦。后面的所有内容,都源于网上已公开的信息。
对于Cookie技术,网上已有很多解释,就不再详述了。总之,如果网站设计规范,即使第三方在投放广告位里放置代码,也只能操作它自己的Cookie,不可能读写宿主站的Cookie并获得登录密码和个人信息。
Cookie的一个常见用途就是收集用户历史行为,用于个性化推荐。比如豆瓣网很受欢迎,因为它的算法能根据每个人的历史数据,向我们推荐可能感兴趣的书、电影、音乐。
更热门的应用就是精准投放广告,例如这两年很受关注的RTB。典型的RTB流程如下:
1、张三点击网页“尿布大全”(往往正是通过Cookie识别出访问者是张三);
2、该网页某广告位向广告平台请求:张三来了,需要合适的广告;
3、广告平台向DMP发出请求:张三啥情况?
4、DMP回复广告平台:张三是个美食家,他有个1岁的宝宝;
5、广告平台向所有DSP公告:这里有个“吃货”&“孩他爸”、在浏览“尿布大全”、谁投放广告?
6、DSP根据信息(如广告位置、“尿布大全”、 “吃货”&“孩他爸”等)决定是否出价,出价多少;
7、广告平台决定出价高的DSP投放广告。
所有交互计算要在Web页面返回给用户前的100毫秒内完成,对参与各方的技术要求很高。这个流程中DMP扮演着重要角色,它负责提供访问者的消费特点,这里就需要预先进行数据挖掘。注意,规范情况下,广告平台不应该向DSP透露张三的身份。
在线广告行业,预测用户点击率(CRT)是一个核心问题。问题的输入往往需要上百万维特征。Google、Facebook早期都试图引入高维建模算法,但最后殊途同归都用的是逻辑回归算法。这是和逻辑回归算法本身的很多特点有关的,例如:
1、变量范围是[-∞ ,+∞];同时和其他“广义线性回归”相比,值域是[0,1],因此形式上类似一个概率函数,适合分类问题;
2、基本上可看作一个单层的人工神经网络,所有训练人工神经网络的训练方法都适用;
3、可扩展性好,适合海量的特征当特征数目超过百万时,利用训练最大熵模型的IIS方法可直接用于训练逻辑回归;
4、online learning,能够进行增量学习;
5、线性模型,在金融信用领域,往往利用可解释的特点给出评分卡信息。Google内部也要求“所有效果变化可解释”。
最大熵的建模计算量很大。面对上百万列特征、上百亿行记录的海量数据,如何通过分布式集群快速训练模型,就成了关键性问题。在这个领域最早取得技术突破的是Della Pietra兄弟。这两个人后来退出学术界,加入了传说中的华尔街赚钱机器:文艺复兴技术公司 (Renaissance Technologies)。
文艺复兴科技公司的创始人是James Simons。他早年是顶尖数学家,提出了著名的Chern-Simons定理,1976年获得数学界的皇冠——维布伦奖(Veblen)。 1982年,Simons投身金融领域,雇佣大量毫无金融背景的数学家和物理学家,开发算法模型,对股票和期货进行自动交易。文艺复兴科技公司管理的大奖章基金从1989到2007年间的平均年收益率高达35%,超过了巴菲特。
再见,Google Reader
|
Since October 26, 2005 you have read a total of 31,425 items. |
这是我在Google Reader这些年的历程,没想到如今要说再见。这帮家伙真是买椟还珠。上次有这种感觉,是微软放弃Spaces。
今天网上到处都是对Google Reader之死的哀叹,以及对Google高层的愤怒。Google Reader的前产品经理Brian Shih在Quora上的文字,又要变成经典了。这虽然是一个有技术门槛小众产品,用户却大多是5年以上的互联网用户,行业的中坚力量,其中很多是有影响力的BLOG作者,也是如今在微博和微信上比较受关注的帐号。所以叹息的共振很强。
据说feedly和鲜果都乘机推出了Google Reader搬家的服务。然后服务器都被挤崩溃了。上次说过,最近我刚好正在手机上试用几个App。
我的读者里也有很多是通过Google Reader订阅的,为了保持联系,请关注我的新浪微博帐号 @还是地雷。我的Blog还会写下去。感谢您的关注。
BTW:刚刚飞回北京,春节之后“打飞的”很勤。有点忙有点累,读者们可能觉得这个BLOG技术上干货少了,不好意思。不过我在“憋大招”,敬请期待。

