Tag Archives: 大数据

Cookie、RTB、大数据、逻辑回归和文艺复兴技术公司

  3.15晚会,DSP几乎全军覆没,Cookie这个词热起来,话题也涉及到RTB和大数据产业。好多人问,啥叫RTB?啥叫DSP?

  最近我们算法平台正在应用于在线广告业务,因此写篇BLOG介绍点RTB领域的业务常识和八卦。后面的所有内容,都源于网上已公开的信息。

  对于Cookie技术,网上已有很多解释,就不再详述了。总之,如果网站设计规范,即使第三方在投放广告位里放置代码,也只能操作它自己的Cookie,不可能读写宿主站的Cookie并获得登录密码和个人信息。

  Cookie的一个常见用途就是收集用户历史行为,用于个性化推荐。比如豆瓣网很受欢迎,因为它的算法能根据每个人的历史数据,向我们推荐可能感兴趣的书、电影、音乐。

  更热门的应用就是精准投放广告,例如这两年很受关注的RTB。典型的RTB流程如下:

  1、张三点击网页“尿布大全”(往往正是通过Cookie识别出访问者是张三);
  2、该网页某广告位向广告平台请求:张三来了,需要合适的广告;
  3、广告平台向DMP发出请求:张三啥情况?
  4、DMP回复广告平台:张三是个美食家,他有个1岁的宝宝;
  5、广告平台向所有DSP公告:这里有个“吃货”&“孩他爸”、在浏览“尿布大全”、谁投放广告?
  6、DSP根据信息(如广告位置、“尿布大全”、 “吃货”&“孩他爸”等)决定是否出价,出价多少;
  7、广告平台决定出价高的DSP投放广告。

  所有交互计算要在Web页面返回给用户前的100毫秒内完成,对参与各方的技术要求很高。这个流程中DMP扮演着重要角色,它负责提供访问者的消费特点,这里就需要预先进行数据挖掘。注意,规范情况下,广告平台不应该向DSP透露张三的身份。

  在线广告行业,预测用户点击率(CRT)是一个核心问题。问题的输入往往需要上百万维特征。Google、Facebook早期都试图引入高维建模算法,但最后殊途同归都用的是逻辑回归算法。这是和逻辑回归算法本身的很多特点有关的,例如:

  1、变量范围是[-∞ ,+∞];同时和其他“广义线性回归”相比,值域是[0,1],因此形式上类似一个概率函数,适合分类问题;
  2、基本上可看作一个单层的人工神经网络,所有训练人工神经网络的训练方法都适用;
  3、可扩展性好,适合海量的特征当特征数目超过百万时,利用训练最大熵模型的IIS方法可直接用于训练逻辑回归;
  4、online learning,能够进行增量学习;
  5、线性模型,在金融信用领域,往往利用可解释的特点给出评分卡信息。Google内部也要求“所有效果变化可解释”。

  最大熵的建模计算量很大。面对上百万列特征、上百亿行记录的海量数据,如何通过分布式集群快速训练模型,就成了关键性问题。在这个领域最早取得技术突破的是Della Pietra兄弟。这两个人后来退出学术界,加入了传说中的华尔街赚钱机器:文艺复兴技术公司 (Renaissance Technologies)。

  文艺复兴科技公司的创始人是James Simons。他早年是顶尖数学家,提出了著名的Chern-Simons定理,1976年获得数学界的皇冠——维布伦奖(Veblen)。 1982年,Simons投身金融领域,雇佣大量毫无金融背景的数学家和物理学家,开发算法模型,对股票和期货进行自动交易。文艺复兴科技公司管理的大奖章基金从1989到2007年间的平均年收益率高达35%,超过了巴菲特。

  关于James Simons和文艺复兴技术公司的事,我在知乎上回答过一个相关的问题。

这一期《程序员》杂志……

  这一期《程序员》杂志是大数据专题,俺们alidata部门同学的文章好多呀。关于数据产品的那篇文章里,用淘宝指数举例:“周大福钻石搜索人群68%都是女性,而成交人群100%是男性。”

  悲剧的是,在华大基因的陈钢和余昶两位牛人写的《生命科学中的大数据》中,居然看到了俺的名字。实在愧不敢当。只是一个跳槽的小兵。影响不到行业大势。我目前在阿里数据的ODPS团队,近期的业务方向与生物信息基本无关。

  据说我面试时,以前的工作背景的确加了一点分。阿里关注生物信息领域对云计算技术的需求也很正常。Google对DNAnexus投资是风向标。但目前国内的生物医疗大数据的市场产业化尚处于萌芽期,要说“布局”可能为时尚早。

  这篇文章最后的描述是真的:目前生命科学和计算机两个专业的就业情况是“冰火两重天”,尚在产业化前期的生物信息公司招募人才遇到很大麻烦。但也像他们说的:“市场正在打开,资金正在进入,人才还是很缺乏,这似乎是个好消息。”

  上次说过,华大基因近期势如破竹,收购Complete Genomics成功,上市的进程丝毫没受金融市场的坏天气影响。这是一家值得尊敬的中国创新公司,基因组学领域的华为。

  说起来,最近有一篇吐槽生物信息的BLOG很热。是这篇A farewell to bioinformatics,对此news.ycombinator.com上讨论得很热闹。我仔细看了看这篇BLOG,很多对生物信息的吐槽其实挺中肯的。但生物信息仅是生物学家的工具之一。从孟德尔种豆子起,生物学就是一门面临复杂背景噪音的学科,要证明一个假设,往往需要综合各种手段相互验证。对生物学家而言,生物信息学不一定100%可信,但也绝不是最差选择。

  找个机会和生物信息领域的朋友们深入交流一下。

Base城市:首都机场T3航站楼

  昨天折腾到零点才到家。在机场遇到好多麻烦事,手机又没电,正在到处想办法借手机充电器,看到一帮同事旋风般冲去安检。恍惚……愣神……没来得及截住问有没有充电器。阿里应该包机每周定期往返。不过如果这架飞机挂了,会损失大量产品经理。

  前一阵在内部wiki上整理团队资料表格,给dh填base区域时恶搞地填了一个“首都机场T3航站楼”。到昨天为止,今年出差飞行已经超过30000公里了。现在看我自己也差不多base在航站楼了。

  xlib第一期随ODPS Sprint6发布,算是初步有成果出来。客户的更多需求也涌过来,sprint7要推出更多牛算法,争取在各个BI团队的数据挖掘end2end打通。

  淘宝时光机这个Big Data产品初露锋芒,产品经理是一个90后刚刚入职的小姑娘。电视台居然都来采访她,内网更是盖高楼。接下来alidata会推出更多好玩的东西,我们ODPS当然会是其中的重要支撑。

  大事一件件落停,打算给自己放个假,出去旅游一趟。

ODPS Sprint6发布

  今天xlib一期随着ODPS Sprint 6正式发布到生产。最后的回归测试马上就要跑完了。对北京和杭州两边而言,这都是漫长、疲惫又兴奋的一天。

  这两天在杭州不断和各个BI团队开会。满脑子都是“业务场景”、“E2E打通”和“产品落地”这样的话,感觉自己都有点强迫症。已经不知不觉深深沉浸在产品经理的角色里了。

  亲,最重要、最慢、最难、最不好实现的大数据算法让俺们来搞定!

大数据和互联网金融模式

  一直在关注大数据和金融模式创新。最近这方面的媒体报道多起来,例如前两天《21世纪经济报道》对阿里金融业务的报道。今天又找到了几篇相关报道。

  “中国金融40人论坛”的一篇课题报告《互联网金融模式研究》。其中,关于云计算尤其是Big Data技术在互联网金融模式中所起的关键作用,有这么一段描述:

     ……

     二是在信息处理方面,社交网络平台生成和传播信息,特别是对个人和机构没有义务披露的信息;搜索引擎技术对信息进行组织、排序和检索,能缓解信息超载问题,有针对性地满足信息需求;云计算服务保障海量信息高速处理能力。总的效果是,在云计算的保障下,资金供需双方信息通过社交网络揭示和传播,被搜索引擎组织和标准化,最终形成时间连续、动态变化的信息序列。由此可以给出任何资金需求者(机构)的风险定价或动态违约概率,而且成本极低。正是这种信息处理模式,使互联网金融模式替代了现在商业银行和证券公司的主要功能。

     ……

  这篇报告认为,除了“Big Data”,“移动支付”和“信息的充分发布和匹配”是互联网金融模式的另两个核心。这将使金融交易的门槛大大降低,容易解决中小企业融资、民间借贷、个人投资渠道等难题。而传统形式的银行、券商和交易所等金融中介,将受到冲击。(如果你注意看了昨天的科技新闻,支付宝开始在移动支付领域发力)。

  另外《环球企业家》刚发表了一篇《阿里金融凶猛:数据为王工厂化运作》,里面是这么写的:

     阿里巴巴不平凡的金融抱负,让一些银行感到不安

     ……

     支撑起这种工厂化运作的,是阿里小贷公司背后强大的信息系统和数据支持。

     据阿里小贷公司相关人员介绍,小微企业大量数据的运算依赖互联网的云计算技术,不仅保证其安全性和效率,也降低了运营成本,同时简化了小微企业融资的环节,可以为小微企业提供365*24的全天候金融服务,“都是基于国内小微企业数量庞大,且融资需求旺盛的特点设计的。”

     与同样以微小贷款著称的包商银行相比,截至2012年6月末,包商银行累计发放微小企业贷款20.90万笔,金额326.06亿元。同期阿里小贷公司已累计为超过13万家小微企业提供融资服务,贷款总额超260亿元,不良率为0.72%。

     ……

阿里金融业务@ODPS

  很多人都知道阿里金融是ODPS最早的客户,那么他们到底在用ODPS支撑着什么内容呢?

  这两天腾讯、阿里和平安合资组建保险公司的事情引起很大关注。新闻界对阿里金融做了大量报道,今天出版的《21世纪经济报道》里有一篇《一笔B2B贷款的旅行》,相对靠谱地介绍了每天自动跑在ODPS上的金融业务。这是一宗真正依赖大数据的买卖。

     阿里金融通过阿里巴巴、淘宝、天猫上的销售平台,对客户的历史交易流水进行分析和定量,可以反映其真实的信用状况。

     这些数据包括客户在什么时间、在哪里、同谁做生意、商品数量的变化等等。

     随后,评级系统会分析小微业主的阿里巴巴平台认证与注册信息、留下的痕迹、贸易平台表现,如登录管理、广告投放、社区行为等。接下来,还要进行客户交互行为分析,如顾客的收藏、反馈、评价情况等。所有信息最终会进入数据库进行定量,并将数值输入网络行为评分模型,从而对小微客户进行评级分层。

     在贷前阶段,除了运用自己的平台收集详细数据进行分析后评级外,近期阿里巴巴同第三方公司开始一项新的合作,通过深圳这家公司的进出口数据认证服务,掌握企业会员经过海关、税务验证的数据,这些数据将在阿里巴巴网站上自动生成。

     同时,阿里金融在小微贷款技术中还引入了心理测试系统,对小企业主进行分析,判读其性格特质,并将得到的结果进行定量,通过模型测评小企业主对假设情景的掩饰程度和撒谎程度。此外,客户评级还结合客户软信息、上下游评价等,再将行业与政策库数据作为调整因素,从而完成对小微企业客户的全方位综合评价。

     在贷款期间,阿里巴巴的系统将监控企业贷款使用是否有发生偏离的情况。

  另外,其实这条新闻里除了“三马”之外还涉及第四“马”,是招商银行的老总马蔚华。他几个月前讲话说:互联网公司将对金融行业产生的颠覆性冲击,招商银行的竞争对手不是工商银行,而是Facebook。让我们继续努力,给这些西装革履的高帅富一点颜色看看。

KDD 2012第一天

  我现在在KDD 2012大会现场。由于今年的主题是Mining the Big Data,有趣的报告太多了。我主要在穿插着听以下三个Track:

  1.关于海量数据处理,基于MapReduce、Stream的数据挖掘算法实现的BigMine

  2.关于生物信息数据挖掘的BIOKDD,以及与健康信息有关的HI-KDD

  3.Yahoo专家的特邀报告Data mining in streams

  见到很多朋友,如果你也在现场请联系我或者微博上@我,大家多交流。