Tag Archives: RTB

Cookie、RTB、大数据、逻辑回归和文艺复兴技术公司

  3.15晚会,DSP几乎全军覆没,Cookie这个词热起来,话题也涉及到RTB和大数据产业。好多人问,啥叫RTB?啥叫DSP?

  最近我们算法平台正在应用于在线广告业务,因此写篇BLOG介绍点RTB领域的业务常识和八卦。后面的所有内容,都源于网上已公开的信息。

  对于Cookie技术,网上已有很多解释,就不再详述了。总之,如果网站设计规范,即使第三方在投放广告位里放置代码,也只能操作它自己的Cookie,不可能读写宿主站的Cookie并获得登录密码和个人信息。

  Cookie的一个常见用途就是收集用户历史行为,用于个性化推荐。比如豆瓣网很受欢迎,因为它的算法能根据每个人的历史数据,向我们推荐可能感兴趣的书、电影、音乐。

  更热门的应用就是精准投放广告,例如这两年很受关注的RTB。典型的RTB流程如下:

  1、张三点击网页“尿布大全”(往往正是通过Cookie识别出访问者是张三);
  2、该网页某广告位向广告平台请求:张三来了,需要合适的广告;
  3、广告平台向DMP发出请求:张三啥情况?
  4、DMP回复广告平台:张三是个美食家,他有个1岁的宝宝;
  5、广告平台向所有DSP公告:这里有个“吃货”&“孩他爸”、在浏览“尿布大全”、谁投放广告?
  6、DSP根据信息(如广告位置、“尿布大全”、 “吃货”&“孩他爸”等)决定是否出价,出价多少;
  7、广告平台决定出价高的DSP投放广告。

  所有交互计算要在Web页面返回给用户前的100毫秒内完成,对参与各方的技术要求很高。这个流程中DMP扮演着重要角色,它负责提供访问者的消费特点,这里就需要预先进行数据挖掘。注意,规范情况下,广告平台不应该向DSP透露张三的身份。

  在线广告行业,预测用户点击率(CRT)是一个核心问题。问题的输入往往需要上百万维特征。Google、Facebook早期都试图引入高维建模算法,但最后殊途同归都用的是逻辑回归算法。这是和逻辑回归算法本身的很多特点有关的,例如:

  1、变量范围是[-∞ ,+∞];同时和其他“广义线性回归”相比,值域是[0,1],因此形式上类似一个概率函数,适合分类问题;
  2、基本上可看作一个单层的人工神经网络,所有训练人工神经网络的训练方法都适用;
  3、可扩展性好,适合海量的特征当特征数目超过百万时,利用训练最大熵模型的IIS方法可直接用于训练逻辑回归;
  4、online learning,能够进行增量学习;
  5、线性模型,在金融信用领域,往往利用可解释的特点给出评分卡信息。Google内部也要求“所有效果变化可解释”。

  最大熵的建模计算量很大。面对上百万列特征、上百亿行记录的海量数据,如何通过分布式集群快速训练模型,就成了关键性问题。在这个领域最早取得技术突破的是Della Pietra兄弟。这两个人后来退出学术界,加入了传说中的华尔街赚钱机器:文艺复兴技术公司 (Renaissance Technologies)。

  文艺复兴科技公司的创始人是James Simons。他早年是顶尖数学家,提出了著名的Chern-Simons定理,1976年获得数学界的皇冠——维布伦奖(Veblen)。 1982年,Simons投身金融领域,雇佣大量毫无金融背景的数学家和物理学家,开发算法模型,对股票和期货进行自动交易。文艺复兴科技公司管理的大奖章基金从1989到2007年间的平均年收益率高达35%,超过了巴菲特。

  关于James Simons和文艺复兴技术公司的事,我在知乎上回答过一个相关的问题。

度假、让·鲍德里亚和RTB

  度假一回来就去杭州出差,一呆就是两个星期。sprint 7发布比较顺利。事情多,欠很多东西没写,包括BLOG。

  在泰国时,基本都在酒店和沙滩上陪闺女玩。有次老婆去逛商业中心,我和闺女在旁边的书店里玩了好久。观察了一下,文学类的柜子,《龙纹身的女孩》和《1Q84》卖得最好。

bookstore

bookstore

  既然肉身在墙外,难免利用酒店免费WIFI去看不和谐的东西。例如跑到维基百科里,查看“教廷枢机院”成员的家庭资产。

  这期间浏览了些闲书,例如让·鲍德里亚(Jean Baudrillard)。这位法国哲学家强调了现代消费对社会的重大影响,更关键的是,在互联网出现之前,他就颇具洞察力地预言:“新媒体”会急速膨胀,重塑社会心理。现在来看,他所预言的“新媒体”的特点与今天的SNS惊人相似:高频互动;信息发布和消费看似自由(“世界是平的”);信息过载,实际仍按阶层组成不同的圈子;同一圈内,思想共振观点趋同;而这一切背后均由资本推动,用以不断提升个人对所谓“个性化消费”的需求。

  让·鲍德里亚的观点是相当激进的,他认为总有一天资本体制会完全吞噬个体,我们都终会成为“新媒体”网络上的一个传感器、一个节点,自以为独立思考,实际上一切都在体制的引导和预测之中。正因如此,科幻电影The Matrix(黑客帝国)一开始,Neo手里拿了一本让·鲍德里亚的著作。

  之所以看这些书,也是因为在工作中有所感悟。最近接触了很多个性化和广告方面的业务。广告理论家皮埃尔·马丁诺(Pierre Martineau)说:任何购买行为过程都是购买者的个性与所谓产品的“个性”之间的一次相互作用。现代广告的专精和准确,早已超出了常人的想象。一个例子就是这次美国大选,民主党团队雇的大数据分析团队,准确预测了所有州的得票率,误差不超过1%。这个团队应用的方法基本都是广告业的成熟模型。

  前一阵参加在北京举行的KDD 2012,好多论文和报告都涉及RTB技术和算法。国内媒体也开始注意到这个领域,例如刚发表的这篇报道写得不错。说起来,到阿里一年了。很庆幸有机会接触大数据的各种应用场景:金融信用、搜索推荐、在线广告、物流网络……