Tag Archives: 数据挖据

数据挖掘,微博,股票,星座和新年假期

  SNS数据挖据热度持续不降。

  前一阵数托邦工作室(DATATOPIA)利用微博数据进行数据挖据,发表了这篇关于《小时代》观众人群的分析报告,获得了很大的反响。根据数据比较,《小时代》观众的平均年龄非常低,很大比例来自二线城市,很大比例是女性,很大比例用iphone,很大比例喜欢《快乐大本营》。网上很多批评《小时代》的北上广大叔未必真正了解这群消费者。我在淘宝指数和百度指数上验证了一下,和文中的统计结论差不多。

  上个月奥巴马被刺杀的假新闻引发股灾,也是由于数据挖掘自动触发导致的。越来越多的投资公司实时监控社交媒体用于股票量化交易(据研究,Twitter情绪和股票走势之间有7分钟的提前量)。前一阵光大银行的投资事故占满报纸头版。这两天纳斯达克系统又崩溃了,最近这一两年事故真多,都是高频交易惹的祸。再加上“互联网金融”让传统银行和基金坐立不安。互联网屌丝正在颠覆金融高帅富。

  说到数据分析,《福布斯》杂志总结了Top 500的亿万富豪,发现处女座最多。被大黑特黑的处女座们一片欢呼!较真一点的话,子柳在知乎上的一个回答中提到,关于星座倾向性,必达团队曾严肃分析过淘宝消费数据,结论是“出生月份与行为模式无关”。由子柳的解释可以大概猜测到,中国的富翁中可能是天蝎座较多。中西方差异源于圣诞和春节之间的时间差,你懂的。

KDD 2012第二、三天

  继续参加KDD2012,这两天不断在会场上碰到以前计算所的老同事、阿里各子公司BI团队的同学、在阿里云认识的客户和合作伙伴。Big Data圈子好热闹。

  今天感觉最有意思的内容,包括一早上Michael I. Jordan教授的报告Divide-and-Conquer and Statistical Inference for Big Data(大数据的分治和统计推断)。以及关于推荐系统和个性化的Session A3。不过很遗憾下午要回公司开一个比较重要的会。

  我们明天再见,我还是最关心Session A3

淘宝数据盛典和ODPS

  工作开始累起来,周五开电话会直到晚上22:30。周六又开了一整天的会,遗憾地错过了童小军组织的“EasyHadoop应用开发者聚会”。《伯罗奔尼撒战争史》的第二篇读后感又拖延了,罪过罪过。

  自从来到阿里云,总被问:“在干啥?”。答曰:“ODPS”。又问:“ODPS是什么,能吃吗?”……这个,其实,之前已经在博客上透露过了

  淘宝数据分析团队的同学们做了这个浅显易懂的邪恶视频,充分展示了Big Data的商业潜力。如果想要更一本正经的市场分析,可以看看麦肯锡的这份报告,以及《福布斯》杂志的这篇报道。再深入一些,想了解如何租用ODPS服务对自己的网站进行数据挖据?看子楠和文志的这篇软文