Tag Archives: xVector

KDD2012将在北京举行

  第18届知识发现与数据挖掘ACM学术会议,也就是KDD 2012,8月12日将在北京举办。这次大会的主题是Mining the Big Data。由于阿里云是赞助商之一,所以我弄到了参会名额。

  这次的KDD cup 2012,题目使用了腾讯微博和搜索引擎的数据。负责主持的是Kaggle,数据挖掘领域著名的竞技平台,里面举行的比赛奖金颇丰。

  2004的KDD cup,题目是生物信息领域的,pFind团队的yfu大牛取得全球并列第一。

  而让KDD cup名声大震的,当数2006年的Netflix Prize,悬赏100万美元。现在国内推荐系统领域领军人物xVector,就是凭借这次大赛成为大众偶像。这是戏剧性的一次大赛,纽约时报全程报导,xVector的团队在最后20分钟痛失第一。

  我们会上见。

easyHadoop、Resys以及追女生的行动次序问题

  最近不断参加各种非正式的技术沙龙,接触网站和创业者的运营团队和数据分析团队,也就是ODPS的潜在用户,了解需求和业务。工作比较累,BLOG更新拖延了,抱歉。这次先写点零零碎碎的东西,接下来会尽快补上此前没写完的东西,例如《伯罗奔尼撒战争史》读后感系列的收尾部分。

  4月中旬,参加了easyHadoop的第二次开发者聚会。后来还和暴风的童小军向磊做了进一步交流。easyHadoop是致力于普及Hadoop、HIVE等开源Big Data数据分析解决方案的志愿者组织,开源了phpHiveAdmin、HappyETL等一系列实用工具。如果你跃跃欲试想找实践机会,参加easyHadoop社团的活动是个好选择。

  5月份还打算去上海参加第二届中国推荐系统大会。推荐系统现在很受关注,Resys在北京的每次活动都爆满抢不到座位。我最早关注,还是因为那次记错时间到贝塔咖啡,误打误撞闯入了这帮极客的线下聚会。当时是xVector分享他参加Netflix数据挖掘大赛的经历。(什么,你没听说过Netflix百万美元的推荐算法大赛,欢迎来地球。那次比赛里,在截至时间只有20分钟的时候,xVector的算法痛失领先地位,没拿到100万美元的奖金)。xVector进入工业界以后,42qu请他又讲了一次。这次上海的会,他将做一次很有干货的会前培训。

  值得一提的是,当年Netflix大赛,各参赛队都是租用亚马逊的EC2弹性计算,部署Hadoop跑统计和拟合算法的。纽约时报对这此的连续报道,也给亚马逊的AWS做了免费的广告。希望未来ODPS能在纽约时报上获得同样的露面机会。

  最后写点非技术八卦。42qu上有个小伙儿怯生生问大家,他喜欢身边的一个女孩,怎么办。一帮技术宅男七嘴八舌给他出馊主意,例如给女孩子做个网站,或者上天涯发动网络舆论帮忙。我是这么回的:

     常规流程是:闲聊、邀请、吃饭、逛商场、看电影、逛公园、送礼物、表白、小亲密、推倒……你也可尝试倒序执行。

     别相信前面那些码农的雷人YY。以上任何阶段插入“网上舆论造势”和“编写网站”啥的,均会引发“女生不兼容”异常,进程将报错退出。