Category Archives: 0和1

KDD 2012第一天

  我现在在KDD 2012大会现场。由于今年的主题是Mining the Big Data,有趣的报告太多了。我主要在穿插着听以下三个Track:

  1.关于海量数据处理,基于MapReduce、Stream的数据挖掘算法实现的BigMine

  2.关于生物信息数据挖掘的BIOKDD,以及与健康信息有关的HI-KDD

  3.Yahoo专家的特邀报告Data mining in streams

  见到很多朋友,如果你也在现场请联系我或者微博上@我,大家多交流。

KDD2012将在北京举行

  第18届知识发现与数据挖掘ACM学术会议,也就是KDD 2012,8月12日将在北京举办。这次大会的主题是Mining the Big Data。由于阿里云是赞助商之一,所以我弄到了参会名额。

  这次的KDD cup 2012,题目使用了腾讯微博和搜索引擎的数据。负责主持的是Kaggle,数据挖掘领域著名的竞技平台,里面举行的比赛奖金颇丰。

  2004的KDD cup,题目是生物信息领域的,pFind团队的yfu大牛取得全球并列第一。

  而让KDD cup名声大震的,当数2006年的Netflix Prize,悬赏100万美元。现在国内推荐系统领域领军人物xVector,就是凭借这次大赛成为大众偶像。这是戏剧性的一次大赛,纽约时报全程报导,xVector的团队在最后20分钟痛失第一。

  我们会上见。

由背包兔谴责盛大云说起

  盛大云故障的事好像越闹越大,背包兔今天在微博里谴责盛大说:

     同时我们严厉谴责盛大这种用普通无备份的虚拟主机来冒充能数据备份的云主机,是一种彻底的欺诈行为!

  对于云主机的磁盘技术,存在不同的方案和思路,做些分析。

  亚马逊EC2的方式是采用本地磁盘作为系统盘,然后再挂上S3云存储作为数据盘。这样做的好处是系统盘会有很高的IO性能,同时节省成本。但也面临着一些风险,如果系统盘损坏了就有可能无法恢复。盛大在技术方案的选择上,照搬了亚马逊。盛大云的本地磁盘应该是做了RAID,这次也确实比较背,同一个机器上多块磁盘都同时坏了。

  而阿里云ECS所有的存储都放在飞天分布式平台上,也就是说无论系统盘还是数据盘,都是云存储,会有多份备份。同时阿里云ECS还会定时自动备份镜像。这样做的好处是安全性得到很大的保证,一旦有磁盘损坏就能自动秒级迁移到其他副本上,如果运气很差多份拷贝都坏了(估计比被雷劈中概率还要小上百倍),还可以回滚到此前的历史镜像。也正因为这样,阿里云的市场运营团队才有胆子公开宣传:发生故障给予100倍赔偿。

  当然阿里云的技术方案是有代价的:首先系统盘的IO就不会那么出色,其次造成的成本压力比较高。技术团队一直在对云存储进行大量的优化,已经取得了很好的进展,申请了一些专利(完全自主开发的平台,相对拿来开源方案,就有这个好处,有一支队伍掌握自己的命运)。同时由于市场逐渐打开,销售额上去了,摊薄了前期投入的硬件成本,所以最近价格也逐渐降下来了。

  对于站长们来说,不管用的是哪一家云,还是建议能更深入吃透云背后的技术原理,设计自己的方案。例如这次事故,如果预先把应用程序和关键数据分开,把关键数据设置放在云磁盘里,可能受到的影响就小一些。有能力开发脚本的,还应该开发一些定时备份的工具。

第一句话&回不了天通苑

  随手记录两件事。

  早上带着小婴儿外出做客。女儿刚坐到车里的婴儿安全座椅上,突然说了人生的第一句话,叫的是“爸爸”。所以一整天我都特开心,每次她一喊“爸爸”,就屁颠屁颠跑过去,给女儿递她够不着的好吃的和玩具,或者让她拽头发。

  下午北京持续大暴雨,回天通苑的立汤路积水断路了。立水桥河水倒灌,好多车都熄火漂起来了。想绕路,还没走多远就堵死,一些红绿灯都失效了。看到市政工人很幸苦,在大雨里站在十字路口没膝的积水里,举着"此处篦子已经打开,请绕行"的牌子提醒来往车辆。交通台不断念叨:“东二环、南二环、西二环,北三环……我们尤其同情住在天通苑和北苑的同学们……大家没事尽量别出门了,司机们发现积水不要冒险涉水通过……”

  最终只好开到亲戚家借住一晚上。据说接下来三个小时降水量会超过50毫米,大雨会一直持续到明天早上10点。

编程语言

  最近又在上海、杭州……到处飞。在飞机上用大黄蜂看了好多电影。

  网上总有编程语言的讨论,以及公司和团队用哪种语言不用哪种语言的议论。我刚刚在42qu上回复一个帖子,对此作了一些评论:

     java和python无所谓好坏,只在于团队合适哪个。如果工作中不能用,自己找时间自学不也很好吗?

     算了算,我曾拿来实际挣过钱的编程语言有11种,编程超过万行的有5种。其中很多最初都源于私人兴趣,拿来摆弄玩,后来工作中有合适机会就用上了。工具总是会换来换去不断演进,如何使用它们做出好产品更重要一些。

     招聘和技术方案选型总有各种考虑。如果是较平常的项目,大公司常选用主流编程语言以降低人力成本。反过来,很多极客文化较浓的创业团队最初青睐python,或者lisp,或者go,或者其他某种奇怪的编程语言,往往并非这种语言本身比Java和C++牛。而在于,熟悉小众语言(不过现在python也不算小众了)是个明显特征,意味着这个程序员有好奇心、不怕变化、喜欢私下主动踅摸技术、对编程有兴趣、有能力独立解决问题。

  帮教主宣传一下。他的python网站培训班又开始报名了,里面大量动手环节,有兴趣的去看看吧。

easyHadoop、Resys以及追女生的行动次序问题

  最近不断参加各种非正式的技术沙龙,接触网站和创业者的运营团队和数据分析团队,也就是ODPS的潜在用户,了解需求和业务。工作比较累,BLOG更新拖延了,抱歉。这次先写点零零碎碎的东西,接下来会尽快补上此前没写完的东西,例如《伯罗奔尼撒战争史》读后感系列的收尾部分。

  4月中旬,参加了easyHadoop的第二次开发者聚会。后来还和暴风的童小军向磊做了进一步交流。easyHadoop是致力于普及Hadoop、HIVE等开源Big Data数据分析解决方案的志愿者组织,开源了phpHiveAdmin、HappyETL等一系列实用工具。如果你跃跃欲试想找实践机会,参加easyHadoop社团的活动是个好选择。

  5月份还打算去上海参加第二届中国推荐系统大会。推荐系统现在很受关注,Resys在北京的每次活动都爆满抢不到座位。我最早关注,还是因为那次记错时间到贝塔咖啡,误打误撞闯入了这帮极客的线下聚会。当时是xVector分享他参加Netflix数据挖掘大赛的经历。(什么,你没听说过Netflix百万美元的推荐算法大赛,欢迎来地球。那次比赛里,在截至时间只有20分钟的时候,xVector的算法痛失领先地位,没拿到100万美元的奖金)。xVector进入工业界以后,42qu请他又讲了一次。这次上海的会,他将做一次很有干货的会前培训。

  值得一提的是,当年Netflix大赛,各参赛队都是租用亚马逊的EC2弹性计算,部署Hadoop跑统计和拟合算法的。纽约时报对这此的连续报道,也给亚马逊的AWS做了免费的广告。希望未来ODPS能在纽约时报上获得同样的露面机会。

  最后写点非技术八卦。42qu上有个小伙儿怯生生问大家,他喜欢身边的一个女孩,怎么办。一帮技术宅男七嘴八舌给他出馊主意,例如给女孩子做个网站,或者上天涯发动网络舆论帮忙。我是这么回的:

     常规流程是:闲聊、邀请、吃饭、逛商场、看电影、逛公园、送礼物、表白、小亲密、推倒……你也可尝试倒序执行。

     别相信前面那些码农的雷人YY。以上任何阶段插入“网上舆论造势”和“编写网站”啥的,均会引发“女生不兼容”异常,进程将报错退出。

百度技术沙龙:海量数据处理技术

  今天去参加InfoQ举办的百度技术沙龙,主题是海量数据处理技术解析。在开始之前,看到这个视频《盒子里的梦想》,觉得拍得挺有意思。

  第一个讲演者杨栋,在计算所的时候就认识。当时他是曙光5000分布式文件系统的主力开发者。到了百度以后,就成为分布式系统方面的主力。在很多技术交流会上都有报告。这次的PPT重点是Hypertable的各种性能优化。他特别强调profiling的重要性,我对此深有体会。

  第二个讲演者徐振华,是58同城(58.com)云平台的技术负责人。尽管这个神奇的网站规模小于百度,但是报告内容还是有不少实践方面的干货的。其中一个案例是关于离线处理的数据统计应用的。我对此特别感兴趣,报告下来也和他做了一点交流。

  后来计算所的查礼研究员也做了分享。提到了HIVE里面RCFile的技术细节。刚好最近正在了解阿里云ODPS内核里面的类似数据结构。

  转产品经理以后,每天都是大量邮件、电话、会议,交流非技术的业务和人的问题。即使出来参加活动,也是车库咖啡面向创业者。有一阵没参加比较纯粹的技术沙龙了,心情很复杂呀,呵呵。

西乔的漫画:Game Over

  3月份的《程序员》杂志,西乔美女的《神秘的程序员们》系列漫画的最新一篇《Game Over》不得不推荐啊。想看更多的,可以去她博客上找

 GameOver——《神秘的程序员们》系列漫画

  前两天被合作公司的老总称赞说:“有些东西是天生的,学不来的”。尽管是客气恭维,我还是感到高兴。一直很钦佩这位创业者,所以他的夸奖令人兴奋。

淘宝数据盛典和ODPS

  工作开始累起来,周五开电话会直到晚上22:30。周六又开了一整天的会,遗憾地错过了童小军组织的“EasyHadoop应用开发者聚会”。《伯罗奔尼撒战争史》的第二篇读后感又拖延了,罪过罪过。

  自从来到阿里云,总被问:“在干啥?”。答曰:“ODPS”。又问:“ODPS是什么,能吃吗?”……这个,其实,之前已经在博客上透露过了

  淘宝数据分析团队的同学们做了这个浅显易懂的邪恶视频,充分展示了Big Data的商业潜力。如果想要更一本正经的市场分析,可以看看麦肯锡的这份报告,以及《福布斯》杂志的这篇报道。再深入一些,想了解如何租用ODPS服务对自己的网站进行数据挖据?看子楠和文志的这篇软文

阿里云平台的介绍

  刚回到北京,下周一还要飞。最近要应付的事多,接下来我一定会保证博客的更新频率和质量。现在先随便敲两句。

  这一期《程序员》杂志的副刊发表了一系列文章,全面介绍了阿里云平台,包括弹性计算、云存储和CDN、应用托管、结构化存储和大规模离线数据分析等等一整套服务。感兴趣的同学们可以看一看。想更深入了解甚至试用,直接去www.aliyun.com吧。