Tag Archives: Big Data

Cookie、RTB、大数据、逻辑回归和文艺复兴技术公司

  3.15晚会,DSP几乎全军覆没,Cookie这个词热起来,话题也涉及到RTB和大数据产业。好多人问,啥叫RTB?啥叫DSP?

  最近我们算法平台正在应用于在线广告业务,因此写篇BLOG介绍点RTB领域的业务常识和八卦。后面的所有内容,都源于网上已公开的信息。

  对于Cookie技术,网上已有很多解释,就不再详述了。总之,如果网站设计规范,即使第三方在投放广告位里放置代码,也只能操作它自己的Cookie,不可能读写宿主站的Cookie并获得登录密码和个人信息。

  Cookie的一个常见用途就是收集用户历史行为,用于个性化推荐。比如豆瓣网很受欢迎,因为它的算法能根据每个人的历史数据,向我们推荐可能感兴趣的书、电影、音乐。

  更热门的应用就是精准投放广告,例如这两年很受关注的RTB。典型的RTB流程如下:

  1、张三点击网页“尿布大全”(往往正是通过Cookie识别出访问者是张三);
  2、该网页某广告位向广告平台请求:张三来了,需要合适的广告;
  3、广告平台向DMP发出请求:张三啥情况?
  4、DMP回复广告平台:张三是个美食家,他有个1岁的宝宝;
  5、广告平台向所有DSP公告:这里有个“吃货”&“孩他爸”、在浏览“尿布大全”、谁投放广告?
  6、DSP根据信息(如广告位置、“尿布大全”、 “吃货”&“孩他爸”等)决定是否出价,出价多少;
  7、广告平台决定出价高的DSP投放广告。

  所有交互计算要在Web页面返回给用户前的100毫秒内完成,对参与各方的技术要求很高。这个流程中DMP扮演着重要角色,它负责提供访问者的消费特点,这里就需要预先进行数据挖掘。注意,规范情况下,广告平台不应该向DSP透露张三的身份。

  在线广告行业,预测用户点击率(CRT)是一个核心问题。问题的输入往往需要上百万维特征。Google、Facebook早期都试图引入高维建模算法,但最后殊途同归都用的是逻辑回归算法。这是和逻辑回归算法本身的很多特点有关的,例如:

  1、变量范围是[-∞ ,+∞];同时和其他“广义线性回归”相比,值域是[0,1],因此形式上类似一个概率函数,适合分类问题;
  2、基本上可看作一个单层的人工神经网络,所有训练人工神经网络的训练方法都适用;
  3、可扩展性好,适合海量的特征当特征数目超过百万时,利用训练最大熵模型的IIS方法可直接用于训练逻辑回归;
  4、online learning,能够进行增量学习;
  5、线性模型,在金融信用领域,往往利用可解释的特点给出评分卡信息。Google内部也要求“所有效果变化可解释”。

  最大熵的建模计算量很大。面对上百万列特征、上百亿行记录的海量数据,如何通过分布式集群快速训练模型,就成了关键性问题。在这个领域最早取得技术突破的是Della Pietra兄弟。这两个人后来退出学术界,加入了传说中的华尔街赚钱机器:文艺复兴技术公司 (Renaissance Technologies)。

  文艺复兴科技公司的创始人是James Simons。他早年是顶尖数学家,提出了著名的Chern-Simons定理,1976年获得数学界的皇冠——维布伦奖(Veblen)。 1982年,Simons投身金融领域,雇佣大量毫无金融背景的数学家和物理学家,开发算法模型,对股票和期货进行自动交易。文艺复兴科技公司管理的大奖章基金从1989到2007年间的平均年收益率高达35%,超过了巴菲特。

  关于James Simons和文艺复兴技术公司的事,我在知乎上回答过一个相关的问题。

大数据和互联网金融模式

  一直在关注大数据和金融模式创新。最近这方面的媒体报道多起来,例如前两天《21世纪经济报道》对阿里金融业务的报道。今天又找到了几篇相关报道。

  “中国金融40人论坛”的一篇课题报告《互联网金融模式研究》。其中,关于云计算尤其是Big Data技术在互联网金融模式中所起的关键作用,有这么一段描述:

     ……

     二是在信息处理方面,社交网络平台生成和传播信息,特别是对个人和机构没有义务披露的信息;搜索引擎技术对信息进行组织、排序和检索,能缓解信息超载问题,有针对性地满足信息需求;云计算服务保障海量信息高速处理能力。总的效果是,在云计算的保障下,资金供需双方信息通过社交网络揭示和传播,被搜索引擎组织和标准化,最终形成时间连续、动态变化的信息序列。由此可以给出任何资金需求者(机构)的风险定价或动态违约概率,而且成本极低。正是这种信息处理模式,使互联网金融模式替代了现在商业银行和证券公司的主要功能。

     ……

  这篇报告认为,除了“Big Data”,“移动支付”和“信息的充分发布和匹配”是互联网金融模式的另两个核心。这将使金融交易的门槛大大降低,容易解决中小企业融资、民间借贷、个人投资渠道等难题。而传统形式的银行、券商和交易所等金融中介,将受到冲击。(如果你注意看了昨天的科技新闻,支付宝开始在移动支付领域发力)。

  另外《环球企业家》刚发表了一篇《阿里金融凶猛:数据为王工厂化运作》,里面是这么写的:

     阿里巴巴不平凡的金融抱负,让一些银行感到不安

     ……

     支撑起这种工厂化运作的,是阿里小贷公司背后强大的信息系统和数据支持。

     据阿里小贷公司相关人员介绍,小微企业大量数据的运算依赖互联网的云计算技术,不仅保证其安全性和效率,也降低了运营成本,同时简化了小微企业融资的环节,可以为小微企业提供365*24的全天候金融服务,“都是基于国内小微企业数量庞大,且融资需求旺盛的特点设计的。”

     与同样以微小贷款著称的包商银行相比,截至2012年6月末,包商银行累计发放微小企业贷款20.90万笔,金额326.06亿元。同期阿里小贷公司已累计为超过13万家小微企业提供融资服务,贷款总额超260亿元,不良率为0.72%。

     ……

阿里金融业务@ODPS

  很多人都知道阿里金融是ODPS最早的客户,那么他们到底在用ODPS支撑着什么内容呢?

  这两天腾讯、阿里和平安合资组建保险公司的事情引起很大关注。新闻界对阿里金融做了大量报道,今天出版的《21世纪经济报道》里有一篇《一笔B2B贷款的旅行》,相对靠谱地介绍了每天自动跑在ODPS上的金融业务。这是一宗真正依赖大数据的买卖。

     阿里金融通过阿里巴巴、淘宝、天猫上的销售平台,对客户的历史交易流水进行分析和定量,可以反映其真实的信用状况。

     这些数据包括客户在什么时间、在哪里、同谁做生意、商品数量的变化等等。

     随后,评级系统会分析小微业主的阿里巴巴平台认证与注册信息、留下的痕迹、贸易平台表现,如登录管理、广告投放、社区行为等。接下来,还要进行客户交互行为分析,如顾客的收藏、反馈、评价情况等。所有信息最终会进入数据库进行定量,并将数值输入网络行为评分模型,从而对小微客户进行评级分层。

     在贷前阶段,除了运用自己的平台收集详细数据进行分析后评级外,近期阿里巴巴同第三方公司开始一项新的合作,通过深圳这家公司的进出口数据认证服务,掌握企业会员经过海关、税务验证的数据,这些数据将在阿里巴巴网站上自动生成。

     同时,阿里金融在小微贷款技术中还引入了心理测试系统,对小企业主进行分析,判读其性格特质,并将得到的结果进行定量,通过模型测评小企业主对假设情景的掩饰程度和撒谎程度。此外,客户评级还结合客户软信息、上下游评价等,再将行业与政策库数据作为调整因素,从而完成对小微企业客户的全方位综合评价。

     在贷款期间,阿里巴巴的系统将监控企业贷款使用是否有发生偏离的情况。

  另外,其实这条新闻里除了“三马”之外还涉及第四“马”,是招商银行的老总马蔚华。他几个月前讲话说:互联网公司将对金融行业产生的颠覆性冲击,招商银行的竞争对手不是工商银行,而是Facebook。让我们继续努力,给这些西装革履的高帅富一点颜色看看。

淘宝数据盛典和ODPS

  工作开始累起来,周五开电话会直到晚上22:30。周六又开了一整天的会,遗憾地错过了童小军组织的“EasyHadoop应用开发者聚会”。《伯罗奔尼撒战争史》的第二篇读后感又拖延了,罪过罪过。

  自从来到阿里云,总被问:“在干啥?”。答曰:“ODPS”。又问:“ODPS是什么,能吃吗?”……这个,其实,之前已经在博客上透露过了

  淘宝数据分析团队的同学们做了这个浅显易懂的邪恶视频,充分展示了Big Data的商业潜力。如果想要更一本正经的市场分析,可以看看麦肯锡的这份报告,以及《福布斯》杂志的这篇报道。再深入一些,想了解如何租用ODPS服务对自己的网站进行数据挖据?看子楠和文志的这篇软文