Tag Archives: 大数据

Cookie、RTB、大数据、逻辑回归和文艺复兴技术公司

　　3.15晚会，DSP几乎全军覆没，Cookie这个词热起来，话题也涉及到RTB和大数据产业。好多人问，啥叫RTB？啥叫DSP？

　　最近我们算法平台正在应用于在线广告业务，因此写篇BLOG介绍点RTB领域的业务常识和八卦。后面的所有内容，都源于网上已公开的信息。

　　对于Cookie技术，网上已有很多解释，就不再详述了。总之，如果网站设计规范，即使第三方在投放广告位里放置代码，也只能操作它自己的Cookie，不可能读写宿主站的Cookie并获得登录密码和个人信息。

　　Cookie的一个常见用途就是收集用户历史行为，用于个性化推荐。比如豆瓣网很受欢迎，因为它的算法能根据每个人的历史数据，向我们推荐可能感兴趣的书、电影、音乐。

　　更热门的应用就是精准投放广告，例如这两年很受关注的RTB。典型的RTB流程如下：

　　1、张三点击网页“尿布大全”（往往正是通过Cookie识别出访问者是张三）；
　　2、该网页某广告位向广告平台请求：张三来了，需要合适的广告；
　　3、广告平台向DMP发出请求：张三啥情况？
　　4、DMP回复广告平台：张三是个美食家，他有个1岁的宝宝；
　　5、广告平台向所有DSP公告：这里有个“吃货”&“孩他爸”、在浏览“尿布大全”、谁投放广告？
　　6、DSP根据信息（如广告位置、“尿布大全”、 “吃货”&“孩他爸”等）决定是否出价，出价多少；
　　7、广告平台决定出价高的DSP投放广告。

　　所有交互计算要在Web页面返回给用户前的100毫秒内完成，对参与各方的技术要求很高。这个流程中DMP扮演着重要角色，它负责提供访问者的消费特点，这里就需要预先进行数据挖掘。注意，规范情况下，广告平台不应该向DSP透露张三的身份。

　　在线广告行业，预测用户点击率（CRT）是一个核心问题。问题的输入往往需要上百万维特征。Google、Facebook早期都试图引入高维建模算法，但最后殊途同归都用的是逻辑回归算法。这是和逻辑回归算法本身的很多特点有关的，例如：

　　1、变量范围是[-∞ ,+∞]；同时和其他“广义线性回归”相比，值域是[0,1]，因此形式上类似一个概率函数，适合分类问题；
　　2、基本上可看作一个单层的人工神经网络，所有训练人工神经网络的训练方法都适用；
　　3、可扩展性好，适合海量的特征当特征数目超过百万时，利用训练最大熵模型的IIS方法可直接用于训练逻辑回归；
　　4、online learning，能够进行增量学习；
　　5、线性模型，在金融信用领域，往往利用可解释的特点给出评分卡信息。Google内部也要求“所有效果变化可解释”。

　　最大熵的建模计算量很大。面对上百万列特征、上百亿行记录的海量数据，如何通过分布式集群快速训练模型，就成了关键性问题。在这个领域最早取得技术突破的是Della Pietra兄弟。这两个人后来退出学术界，加入了传说中的华尔街赚钱机器：文艺复兴技术公司 (Renaissance Technologies)。

　　文艺复兴科技公司的创始人是James Simons。他早年是顶尖数学家，提出了著名的Chern-Simons定理，1976年获得数学界的皇冠——维布伦奖（Veblen）。 1982年，Simons投身金融领域，雇佣大量毫无金融背景的数学家和物理学家，开发算法模型，对股票和期货进行自动交易。文艺复兴科技公司管理的大奖章基金从1989到2007年间的平均年收益率高达35%，超过了巴菲特。

　　关于James Simons和文艺复兴技术公司的事，我在知乎上回答过一个相关的问题。

这一期《程序员》杂志……

3 Replies

　　这一期《程序员》杂志是大数据专题，俺们alidata部门同学的文章好多呀。关于数据产品的那篇文章里，用淘宝指数举例：“周大福钻石搜索人群68%都是女性，而成交人群100%是男性。”

　　悲剧的是，在华大基因的陈钢和余昶两位牛人写的《生命科学中的大数据》中，居然看到了俺的名字。实在愧不敢当。只是一个跳槽的小兵。影响不到行业大势。我目前在阿里数据的ODPS团队，近期的业务方向与生物信息基本无关。

　　据说我面试时，以前的工作背景的确加了一点分。阿里关注生物信息领域对云计算技术的需求也很正常。Google对DNAnexus投资是风向标。但目前国内的生物医疗大数据的市场产业化尚处于萌芽期，要说“布局”可能为时尚早。

　　这篇文章最后的描述是真的：目前生命科学和计算机两个专业的就业情况是“冰火两重天”，尚在产业化前期的生物信息公司招募人才遇到很大麻烦。但也像他们说的：“市场正在打开，资金正在进入，人才还是很缺乏，这似乎是个好消息。”

　　上次说过，华大基因近期势如破竹，收购Complete Genomics成功，上市的进程丝毫没受金融市场的坏天气影响。这是一家值得尊敬的中国创新公司，基因组学领域的华为。

　　说起来，最近有一篇吐槽生物信息的BLOG很热。是这篇A farewell to bioinformatics，对此news.ycombinator.com上讨论得很热闹。我仔细看了看这篇BLOG，很多对生物信息的吐槽其实挺中肯的。但生物信息仅是生物学家的工具之一。从孟德尔种豆子起，生物学就是一门面临复杂背景噪音的学科，要证明一个假设，往往需要综合各种手段相互验证。对生物学家而言，生物信息学不一定100%可信，但也绝不是最差选择。

　　找个机会和生物信息领域的朋友们深入交流一下。

Base城市：首都机场T3航站楼

2 Replies

　　昨天折腾到零点才到家。在机场遇到好多麻烦事，手机又没电，正在到处想办法借手机充电器，看到一帮同事旋风般冲去安检。恍惚……愣神……没来得及截住问有没有充电器。阿里应该包机每周定期往返。不过如果这架飞机挂了，会损失大量产品经理。

　　前一阵在内部wiki上整理团队资料表格，给dh填base区域时恶搞地填了一个“首都机场T3航站楼”。到昨天为止，今年出差飞行已经超过30000公里了。现在看我自己也差不多base在航站楼了。

　　xlib第一期随ODPS Sprint6发布，算是初步有成果出来。客户的更多需求也涌过来，sprint7要推出更多牛算法，争取在各个BI团队的数据挖掘end2end打通。

　　淘宝时光机这个Big Data产品初露锋芒，产品经理是一个90后刚刚入职的小姑娘。电视台居然都来采访她，内网更是盖高楼。接下来alidata会推出更多好玩的东西，我们ODPS当然会是其中的重要支撑。

　　大事一件件落停，打算给自己放个假，出去旅游一趟。

ODPS Sprint6发布

2 Replies

　　今天xlib一期随着ODPS Sprint 6正式发布到生产。最后的回归测试马上就要跑完了。对北京和杭州两边而言，这都是漫长、疲惫又兴奋的一天。

　　这两天在杭州不断和各个BI团队开会。满脑子都是“业务场景”、“E2E打通”和“产品落地”这样的话，感觉自己都有点强迫症。已经不知不觉深深沉浸在产品经理的角色里了。

　　亲，最重要、最慢、最难、最不好实现的大数据算法让俺们来搞定！

大数据和互联网金融模式

阿里金融业务@ODPS

5 Replies

　　很多人都知道阿里金融是ODPS最早的客户，那么他们到底在用ODPS支撑着什么内容呢？

　　这两天腾讯、阿里和平安合资组建保险公司的事情引起很大关注。新闻界对阿里金融做了大量报道，今天出版的《21世纪经济报道》里有一篇《一笔B2B贷款的旅行》，相对靠谱地介绍了每天自动跑在ODPS上的金融业务。这是一宗真正依赖大数据的买卖。

阿里金融通过阿里巴巴、淘宝、天猫上的销售平台，对客户的历史交易流水进行分析和定量，可以反映其真实的信用状况。

这些数据包括客户在什么时间、在哪里、同谁做生意、商品数量的变化等等。

随后，评级系统会分析小微业主的阿里巴巴平台认证与注册信息、留下的痕迹、贸易平台表现，如登录管理、广告投放、社区行为等。接下来，还要进行客户交互行为分析，如顾客的收藏、反馈、评价情况等。所有信息最终会进入数据库进行定量，并将数值输入网络行为评分模型，从而对小微客户进行评级分层。

在贷前阶段，除了运用自己的平台收集详细数据进行分析后评级外，近期阿里巴巴同第三方公司开始一项新的合作，通过深圳这家公司的进出口数据认证服务，掌握企业会员经过海关、税务验证的数据，这些数据将在阿里巴巴网站上自动生成。

同时，阿里金融在小微贷款技术中还引入了心理测试系统，对小企业主进行分析，判读其性格特质，并将得到的结果进行定量，通过模型测评小企业主对假设情景的掩饰程度和撒谎程度。此外，客户评级还结合客户软信息、上下游评价等，再将行业与政策库数据作为调整因素，从而完成对小微企业客户的全方位综合评价。

在贷款期间，阿里巴巴的系统将监控企业贷款使用是否有发生偏离的情况。

　　另外，其实这条新闻里除了“三马”之外还涉及第四“马”，是招商银行的老总马蔚华。他几个月前讲话说：互联网公司将对金融行业产生的颠覆性冲击，招商银行的竞争对手不是工商银行，而是Facebook。让我们继续努力，给这些西装革履的高帅富一点颜色看看。

joyfire 王乐珩地雷

有事多Google，没事少上网