Tag Archives: 随机梯度下降

谈谈ODPS商业化(四):2014阿里巴巴大数据竞赛

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……

  几天前2014阿里巴巴大数据竞赛刚刚落下帷幕,第11名的F1分数、准确率和召回率是6.10%、6.28%和5.93%。前10名的成绩还未公布,他们会被邀请到阿里巴巴公司来,有机会和内部团队一起参与双11。选手们闲下来,开始在群里爆特征、开玩笑、交换联系方式。

  这次海内外共有7276支队报名。比赛分为多个阶段:S1是线下海选,从S2开始上ODPS,每月底淘汰末位的100支队,直到7月31日尘埃落定。选手们需要像阿里数据分析师一样工作,完全依赖云端的ODPS平台上的SQL、Mapreduce和Xlib/Xlab算法工具处理大数据,E2E完成建模全过程:划分训练集和测试集,选择模型,抽取特征,处理过拟合,采样正负样本(向上采样、向下采样),调参,特征和目标值的处理,模型融合……几个月下来,有不少同学分享了心得和感悟:

  来着如临高山,往者以观逝水
  成也solo,败也solo
  事非经过不知难
  大数据竞赛所历所思
  点说那些年参加过的竞赛
  STO_OTZ队的比赛流水账以及心得感悟
  那些在坑里翻滚的日子
  一场比赛、一组数据、一个梦想
  ODPS SQL 构建离线评估
  超级啰嗦版ODPS MapReduce入门
  第一季总结:LR入门
  阿里大数据竞赛season1总结

  有次看到阿里云后台的客服工单:“想实现逻辑回归分类算法,使用随机梯度下降算法来优化参数,怎么在大规模分布式系统下实现?你们的xlib已经有了,我就是想问问^_^”。阿里云的售后支持mm真心累啊。发了一条微博说:下次再有这种调戏就回答“想知道吗,给我们投简历吧。”结果第二天就有参赛选手分享了这篇博客: 在MapReduce中实现随机梯度下降法(这篇文章对算法实现原理写得很清楚了,但用Mapreduce编程模型实现迭代类算法性能是很弱的,大多数人还是直接用Xlib实现好了的逻辑回归、随机森林、GBRT等算法)。

  还有好玩的,有一位在台湾上学的参赛者利用S1的参赛队的排名信息深入分析了一番,写了这个:阿里大数据 – 中国好大学

  比赛筹备一年多,很辛苦,很成功,恭喜得福和一婷。对于即将毕业的学生来说,关注并参与这次比赛,能深入体会工业界数据分析师的工作场景。另外,除了比赛内容本身,我想提醒读者注意天池平台。数据交换的业务模式已经开始萌芽。

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……