Monthly Archives: March 2013

杀到一线去,吃自己的狗粮!

  昨晚开会到23:30,漫长的一天。近两个月算法平台进展很快,压力也越来越大。把问题抛出来过一遍,也就放松了。得感谢团队给我成长空间。

  今天收拾行李,继续飞杭州。接下来会在业务一线呆着,和数据科学家们泡在一起。学习金融信用评级,动手做数学建模,“吃自己的狗粮”。

  兴奋,这种感觉有点像当年做pFind的时候,搬着服务器去生物学家那里安营扎寨,和他们一起杀老鼠做实验。以前总结过,交流多,创新就多。对个人也是很好的提高机会。

Cookie、RTB、大数据、逻辑回归和文艺复兴技术公司

  3.15晚会,DSP几乎全军覆没,Cookie这个词热起来,话题也涉及到RTB和大数据产业。好多人问,啥叫RTB?啥叫DSP?

  最近我们算法平台正在应用于在线广告业务,因此写篇BLOG介绍点RTB领域的业务常识和八卦。后面的所有内容,都源于网上已公开的信息。

  对于Cookie技术,网上已有很多解释,就不再详述了。总之,如果网站设计规范,即使第三方在投放广告位里放置代码,也只能操作它自己的Cookie,不可能读写宿主站的Cookie并获得登录密码和个人信息。

  Cookie的一个常见用途就是收集用户历史行为,用于个性化推荐。比如豆瓣网很受欢迎,因为它的算法能根据每个人的历史数据,向我们推荐可能感兴趣的书、电影、音乐。

  更热门的应用就是精准投放广告,例如这两年很受关注的RTB。典型的RTB流程如下:

  1、张三点击网页“尿布大全”(往往正是通过Cookie识别出访问者是张三);
  2、该网页某广告位向广告平台请求:张三来了,需要合适的广告;
  3、广告平台向DMP发出请求:张三啥情况?
  4、DMP回复广告平台:张三是个美食家,他有个1岁的宝宝;
  5、广告平台向所有DSP公告:这里有个“吃货”&“孩他爸”、在浏览“尿布大全”、谁投放广告?
  6、DSP根据信息(如广告位置、“尿布大全”、 “吃货”&“孩他爸”等)决定是否出价,出价多少;
  7、广告平台决定出价高的DSP投放广告。

  所有交互计算要在Web页面返回给用户前的100毫秒内完成,对参与各方的技术要求很高。这个流程中DMP扮演着重要角色,它负责提供访问者的消费特点,这里就需要预先进行数据挖掘。注意,规范情况下,广告平台不应该向DSP透露张三的身份。

  在线广告行业,预测用户点击率(CRT)是一个核心问题。问题的输入往往需要上百万维特征。Google、Facebook早期都试图引入高维建模算法,但最后殊途同归都用的是逻辑回归算法。这是和逻辑回归算法本身的很多特点有关的,例如:

  1、变量范围是[-∞ ,+∞];同时和其他“广义线性回归”相比,值域是[0,1],因此形式上类似一个概率函数,适合分类问题;
  2、基本上可看作一个单层的人工神经网络,所有训练人工神经网络的训练方法都适用;
  3、可扩展性好,适合海量的特征当特征数目超过百万时,利用训练最大熵模型的IIS方法可直接用于训练逻辑回归;
  4、online learning,能够进行增量学习;
  5、线性模型,在金融信用领域,往往利用可解释的特点给出评分卡信息。Google内部也要求“所有效果变化可解释”。

  最大熵的建模计算量很大。面对上百万列特征、上百亿行记录的海量数据,如何通过分布式集群快速训练模型,就成了关键性问题。在这个领域最早取得技术突破的是Della Pietra兄弟。这两个人后来退出学术界,加入了传说中的华尔街赚钱机器:文艺复兴技术公司 (Renaissance Technologies)。

  文艺复兴科技公司的创始人是James Simons。他早年是顶尖数学家,提出了著名的Chern-Simons定理,1976年获得数学界的皇冠——维布伦奖(Veblen)。 1982年,Simons投身金融领域,雇佣大量毫无金融背景的数学家和物理学家,开发算法模型,对股票和期货进行自动交易。文艺复兴科技公司管理的大奖章基金从1989到2007年间的平均年收益率高达35%,超过了巴菲特。

  关于James Simons和文艺复兴技术公司的事,我在知乎上回答过一个相关的问题。

再见,Google Reader

     Since October 26, 2005 you have read a total of 31,425 items.

  这是我在Google Reader这些年的历程,没想到如今要说再见。这帮家伙真是买椟还珠。上次有这种感觉,是微软放弃Spaces

  今天网上到处都是对Google Reader之死的哀叹,以及对Google高层的愤怒。Google Reader的前产品经理Brian Shih在Quora上的文字,又要变成经典了。这虽然是一个有技术门槛小众产品,用户却大多是5年以上的互联网用户,行业的中坚力量,其中很多是有影响力的BLOG作者,也是如今在微博和微信上比较受关注的帐号。所以叹息的共振很强。

  据说feedly和鲜果都乘机推出了Google Reader搬家的服务。然后服务器都被挤崩溃了。上次说过,最近我刚好正在手机上试用几个App

  我的读者里也有很多是通过Google Reader订阅的,为了保持联系,请关注我的新浪微博帐号 @还是地雷。我的Blog还会写下去。感谢您的关注。

  BTW:刚刚飞回北京,春节之后“打飞的”很勤。有点忙有点累,读者们可能觉得这个BLOG技术上干货少了,不好意思。不过我在“憋大招”,敬请期待。

在沙尘暴中的降落

  刚飞回北京。早上杭州天气特别好,高速一路畅通,航班也没晚点,照例在登机口偶遇了同事,心情不错。可惜猜中了开头,没猜中结尾。

  越接近北京越颠簸,在天上多绕了半小时才开始降落,接近地面时上窜下跳,搞得很多乘客都喊头晕恶心。我就坐在一位空姐旁边,降落后她松了一口气,小声说,其实差一点备降天津。

  这还不算完,飞机还没停稳就感觉沙尘暴忒厉害,吹得机身不断晃。机长广播说,风力太大,客梯车无法靠过来。机场发布了橙色预警,跑道关闭,后续飞机都备降到石家庄去了。困了两个钟头,预警级别才降为黄色,总算从憋闷的机舱里逃出来。

  回来一看新闻,11点40分首都机场风速高达30米/秒风力达11级;11点46分T3航站楼屋顶局部被瞬间超过11级以上的强旋风掀开;12点20分天津机场已按操作规程固定的飞机被强阵风吹偏机头,撞上了廊桥……这么说起来,我真算幸运的。

  降落前剧烈颠簸,好多念头闪过:先想到家人,然后又觉得ODPS和算法平台的工作刚展开……接下来冒出来的居然是:最近太忙太懒,BLOG好久没更新了。

  好吧,我知道错了,很多事儿既然想到了,就该马上做的。例如写这篇BLOG。再例如下周休假一天,帮老婆跑跑建材城,和老妈一起看看孩子。