Tag Archives: 逻辑回归

关于建模思路

平台需要生态系统

　　ODPS Sprint8发布了。算法平台也随之发布了很多新功能。

　　最近8个工作周累计只有1/4时间呆在北京，剩下的时间都在杭州。几乎每周都是周二飞到杭州，周末再飞回来。以至于偶尔在北京办公室露面，旁边同学们都问我：“这次到北京出差打算呆几天？”

　　例外是上个月底。每次Sprint发布之前都有这么一个阶段：从Word、Excell、Outlook里，从飞机场和会议室里逃出来。静下心，ssh连上跳板机，svn checkout，vi……写代码、加UT、提review、加班熬夜，重新变成一个程序员。这往往是整个产品周期里，比较平静的一周。

　　不过这次Sprint8我出错了，在逻辑回归的命令行指令里写出两个Bug来。不得不在发布后的几天里陷入煎熬，紧急打补丁。前天晚上HotFix折腾到23点。我离开办公室时，数据科学家团队还在继续加班。第二天3个基于我们算法的大数据模型按时上线。出自淘宝的工程团队，执行力很强悍。

　　作为平台，拥有生态环境是至关重要的：你有没有冲进客户业务里去，理解并搞定关键问题？反过来，别人能否沉到平台里面来，贡献代码和数据？有多大的器量就有多大的空间。找到靠谱的业务伙伴，应该在旁边摇着扇子、八抬大轿伺候着。

　　之前yy在客户现场呆了半年之久，帮客户重构了很多关键业务，获得了“数仓专家”的职业声誉。我去杭州，老大给我的指令是，像yy一样，扎进BI团队，成为合格的”数据科学家”。这事不容易，不过不会比杀小白鼠更难。

　　工作上好久没这么发狠了。

　　飞机上看完了《质数的孤独》。作者是个粒子物理学博士，处女作就获得斯特雷加奖。这本小说的页码不是连续的，而是质数序列：2,3,5,7……所有文艺作品都涉及孤独，因为孤独很普遍，这一部写得尤其彻底。

Cookie、RTB、大数据、逻辑回归和文艺复兴技术公司

1 Reply

　　3.15晚会，DSP几乎全军覆没，Cookie这个词热起来，话题也涉及到RTB和大数据产业。好多人问，啥叫RTB？啥叫DSP？

　　最近我们算法平台正在应用于在线广告业务，因此写篇BLOG介绍点RTB领域的业务常识和八卦。后面的所有内容，都源于网上已公开的信息。

　　对于Cookie技术，网上已有很多解释，就不再详述了。总之，如果网站设计规范，即使第三方在投放广告位里放置代码，也只能操作它自己的Cookie，不可能读写宿主站的Cookie并获得登录密码和个人信息。

　　Cookie的一个常见用途就是收集用户历史行为，用于个性化推荐。比如豆瓣网很受欢迎，因为它的算法能根据每个人的历史数据，向我们推荐可能感兴趣的书、电影、音乐。

　　更热门的应用就是精准投放广告，例如这两年很受关注的RTB。典型的RTB流程如下：

　　1、张三点击网页“尿布大全”（往往正是通过Cookie识别出访问者是张三）；
　　2、该网页某广告位向广告平台请求：张三来了，需要合适的广告；
　　3、广告平台向DMP发出请求：张三啥情况？
　　4、DMP回复广告平台：张三是个美食家，他有个1岁的宝宝；
　　5、广告平台向所有DSP公告：这里有个“吃货”&“孩他爸”、在浏览“尿布大全”、谁投放广告？
　　6、DSP根据信息（如广告位置、“尿布大全”、 “吃货”&“孩他爸”等）决定是否出价，出价多少；
　　7、广告平台决定出价高的DSP投放广告。

　　所有交互计算要在Web页面返回给用户前的100毫秒内完成，对参与各方的技术要求很高。这个流程中DMP扮演着重要角色，它负责提供访问者的消费特点，这里就需要预先进行数据挖掘。注意，规范情况下，广告平台不应该向DSP透露张三的身份。

　　在线广告行业，预测用户点击率（CRT）是一个核心问题。问题的输入往往需要上百万维特征。Google、Facebook早期都试图引入高维建模算法，但最后殊途同归都用的是逻辑回归算法。这是和逻辑回归算法本身的很多特点有关的，例如：

　　1、变量范围是[-∞ ,+∞]；同时和其他“广义线性回归”相比，值域是[0,1]，因此形式上类似一个概率函数，适合分类问题；
　　2、基本上可看作一个单层的人工神经网络，所有训练人工神经网络的训练方法都适用；
　　3、可扩展性好，适合海量的特征当特征数目超过百万时，利用训练最大熵模型的IIS方法可直接用于训练逻辑回归；
　　4、online learning，能够进行增量学习；
　　5、线性模型，在金融信用领域，往往利用可解释的特点给出评分卡信息。Google内部也要求“所有效果变化可解释”。

　　最大熵的建模计算量很大。面对上百万列特征、上百亿行记录的海量数据，如何通过分布式集群快速训练模型，就成了关键性问题。在这个领域最早取得技术突破的是Della Pietra兄弟。这两个人后来退出学术界，加入了传说中的华尔街赚钱机器：文艺复兴技术公司 (Renaissance Technologies)。

　　文艺复兴科技公司的创始人是James Simons。他早年是顶尖数学家，提出了著名的Chern-Simons定理，1976年获得数学界的皇冠——维布伦奖（Veblen）。 1982年，Simons投身金融领域，雇佣大量毫无金融背景的数学家和物理学家，开发算法模型，对股票和期货进行自动交易。文艺复兴科技公司管理的大奖章基金从1989到2007年间的平均年收益率高达35%，超过了巴菲特。

　　关于James Simons和文艺复兴技术公司的事，我在知乎上回答过一个相关的问题。

joyfire 王乐珩地雷

有事多Google，没事少上网

Tag Archives: 逻辑回归

关于建模思路

平台需要生态系统