Category Archives: 科技评论

KDD 2012第二、三天

  继续参加KDD2012,这两天不断在会场上碰到以前计算所的老同事、阿里各子公司BI团队的同学、在阿里云认识的客户和合作伙伴。Big Data圈子好热闹。

  今天感觉最有意思的内容,包括一早上Michael I. Jordan教授的报告Divide-and-Conquer and Statistical Inference for Big Data(大数据的分治和统计推断)。以及关于推荐系统和个性化的Session A3。不过很遗憾下午要回公司开一个比较重要的会。

  我们明天再见,我还是最关心Session A3

KDD 2012第一天

  我现在在KDD 2012大会现场。由于今年的主题是Mining the Big Data,有趣的报告太多了。我主要在穿插着听以下三个Track:

  1.关于海量数据处理,基于MapReduce、Stream的数据挖掘算法实现的BigMine

  2.关于生物信息数据挖掘的BIOKDD,以及与健康信息有关的HI-KDD

  3.Yahoo专家的特邀报告Data mining in streams

  见到很多朋友,如果你也在现场请联系我或者微博上@我,大家多交流。

由背包兔谴责盛大云说起

  盛大云故障的事好像越闹越大,背包兔今天在微博里谴责盛大说:

     同时我们严厉谴责盛大这种用普通无备份的虚拟主机来冒充能数据备份的云主机,是一种彻底的欺诈行为!

  对于云主机的磁盘技术,存在不同的方案和思路,做些分析。

  亚马逊EC2的方式是采用本地磁盘作为系统盘,然后再挂上S3云存储作为数据盘。这样做的好处是系统盘会有很高的IO性能,同时节省成本。但也面临着一些风险,如果系统盘损坏了就有可能无法恢复。盛大在技术方案的选择上,照搬了亚马逊。盛大云的本地磁盘应该是做了RAID,这次也确实比较背,同一个机器上多块磁盘都同时坏了。

  而阿里云ECS所有的存储都放在飞天分布式平台上,也就是说无论系统盘还是数据盘,都是云存储,会有多份备份。同时阿里云ECS还会定时自动备份镜像。这样做的好处是安全性得到很大的保证,一旦有磁盘损坏就能自动秒级迁移到其他副本上,如果运气很差多份拷贝都坏了(估计比被雷劈中概率还要小上百倍),还可以回滚到此前的历史镜像。也正因为这样,阿里云的市场运营团队才有胆子公开宣传:发生故障给予100倍赔偿。

  当然阿里云的技术方案是有代价的:首先系统盘的IO就不会那么出色,其次造成的成本压力比较高。技术团队一直在对云存储进行大量的优化,已经取得了很好的进展,申请了一些专利(完全自主开发的平台,相对拿来开源方案,就有这个好处,有一支队伍掌握自己的命运)。同时由于市场逐渐打开,销售额上去了,摊薄了前期投入的硬件成本,所以最近价格也逐渐降下来了。

  对于站长们来说,不管用的是哪一家云,还是建议能更深入吃透云背后的技术原理,设计自己的方案。例如这次事故,如果预先把应用程序和关键数据分开,把关键数据设置放在云磁盘里,可能受到的影响就小一些。有能力开发脚本的,还应该开发一些定时备份的工具。

亚马逊首页,Jeff Bezos关于the Amazon Career Choice Program的一封信

  亚马逊首页大大咧咧地放上了Jeff Bezos关于the Amazon Career Choice Program的一封信。

  优秀的企业家往往和艺术家一样,得等人死了,附庸风雅之辈才会扑上来顶礼膜拜。我还记得十几年前在《计算机世界》杂志上看到乔布斯重返Apple之后发布的新一代全透明机箱的iMac,没过多久又推出带着2G硬盘的MP3播放器iPod。那时MS Windows正如日中天,杂志上到处都是对乔布斯的悲观预言。同样的,Jeff Bezos这些年来始终被低估,其实他是阿里巴巴值得尊敬的强大对手。

  云计算领域,AWS正在为进入中国市场做着扎实准备。阿里云内部对此非常紧张。

编程语言

  最近又在上海、杭州……到处飞。在飞机上用大黄蜂看了好多电影。

  网上总有编程语言的讨论,以及公司和团队用哪种语言不用哪种语言的议论。我刚刚在42qu上回复一个帖子,对此作了一些评论:

     java和python无所谓好坏,只在于团队合适哪个。如果工作中不能用,自己找时间自学不也很好吗?

     算了算,我曾拿来实际挣过钱的编程语言有11种,编程超过万行的有5种。其中很多最初都源于私人兴趣,拿来摆弄玩,后来工作中有合适机会就用上了。工具总是会换来换去不断演进,如何使用它们做出好产品更重要一些。

     招聘和技术方案选型总有各种考虑。如果是较平常的项目,大公司常选用主流编程语言以降低人力成本。反过来,很多极客文化较浓的创业团队最初青睐python,或者lisp,或者go,或者其他某种奇怪的编程语言,往往并非这种语言本身比Java和C++牛。而在于,熟悉小众语言(不过现在python也不算小众了)是个明显特征,意味着这个程序员有好奇心、不怕变化、喜欢私下主动踅摸技术、对编程有兴趣、有能力独立解决问题。

  帮教主宣传一下。他的python网站培训班又开始报名了,里面大量动手环节,有兴趣的去看看吧。

近几年内,国内公有云会怎么发展?

  我在知乎上回答了一个问题:近几年内,云计算会有怎么的发展?

     只说说公有云。对私有云不了解。

     1.最近云计算领域的关键词是“落地”。国内共有云基础设施将逐步成熟,领先的公司有望收支平衡。随着价格战的展开,泡沫落潮,没穿内裤的游泳者会逐步出局。

     2.地方政府推动的所谓云计算项目,会找公有云商业公司合作。前者擅长出钱、征地、修机房、买机器,并拉上来一些当地客户。而拥有技术和运营能力的商业公司,负责提供品牌、开发软件、部署系统、运维。

     3.越来越多的天使投资人和风险投资人会要求互联网创业团队在创业初期租用公有云。这比一开始就买很多硬件和带宽放在那里日日夜夜产生折旧成本,风险更小。支出成本与业务量之间线性相关,一旦业务转型包袱比较轻,这更符合财务投资的原则。

     4.Saas类的产品会再次迎来机会。此前的一些RCM、ERP、SCM软件的Saas化尝试不算特别成功,原因是业务模式只改了一半:客户这边变成了按需租用,但支出成本这边却仍然不变, 需要自己建机房买机器,这导致现金流循环的周期太长。有了底层Iaas和Paas供应商,Saas从业者可以按需租用,节省运维费用,成本就降下来了。

     5.移动智能手机的进展会促进云计算的发展。

     6.电子商务从业者方面,用数据仓库、数据挖掘技术支撑运营,会逐渐变成默认标配。中小电商不会投资独立设施,会租用云计算。

     7.弹性计算、云存储、大数据处理,这三大主题陆续都会变成红海。业者需要寻找新的技术和业务模式的创新。

     8 传统意义上的高性能计算的非互联网客户,例如物理、天文、地质、材料,生化等计算的市场,会逐渐往云计算平台上转,但这是一个漫长的过程。曙光6000和天河1号这样的超算中心将来还是会活的很滋润。两边各自擅长于不同的市场(IO密集型和计算密集型)。

easyHadoop、Resys以及追女生的行动次序问题

  最近不断参加各种非正式的技术沙龙,接触网站和创业者的运营团队和数据分析团队,也就是ODPS的潜在用户,了解需求和业务。工作比较累,BLOG更新拖延了,抱歉。这次先写点零零碎碎的东西,接下来会尽快补上此前没写完的东西,例如《伯罗奔尼撒战争史》读后感系列的收尾部分。

  4月中旬,参加了easyHadoop的第二次开发者聚会。后来还和暴风的童小军向磊做了进一步交流。easyHadoop是致力于普及Hadoop、HIVE等开源Big Data数据分析解决方案的志愿者组织,开源了phpHiveAdmin、HappyETL等一系列实用工具。如果你跃跃欲试想找实践机会,参加easyHadoop社团的活动是个好选择。

  5月份还打算去上海参加第二届中国推荐系统大会。推荐系统现在很受关注,Resys在北京的每次活动都爆满抢不到座位。我最早关注,还是因为那次记错时间到贝塔咖啡,误打误撞闯入了这帮极客的线下聚会。当时是xVector分享他参加Netflix数据挖掘大赛的经历。(什么,你没听说过Netflix百万美元的推荐算法大赛,欢迎来地球。那次比赛里,在截至时间只有20分钟的时候,xVector的算法痛失领先地位,没拿到100万美元的奖金)。xVector进入工业界以后,42qu请他又讲了一次。这次上海的会,他将做一次很有干货的会前培训。

  值得一提的是,当年Netflix大赛,各参赛队都是租用亚马逊的EC2弹性计算,部署Hadoop跑统计和拟合算法的。纽约时报对这此的连续报道,也给亚马逊的AWS做了免费的广告。希望未来ODPS能在纽约时报上获得同样的露面机会。

  最后写点非技术八卦。42qu上有个小伙儿怯生生问大家,他喜欢身边的一个女孩,怎么办。一帮技术宅男七嘴八舌给他出馊主意,例如给女孩子做个网站,或者上天涯发动网络舆论帮忙。我是这么回的:

     常规流程是:闲聊、邀请、吃饭、逛商场、看电影、逛公园、送礼物、表白、小亲密、推倒……你也可尝试倒序执行。

     别相信前面那些码农的雷人YY。以上任何阶段插入“网上舆论造势”和“编写网站”啥的,均会引发“女生不兼容”异常,进程将报错退出。

CCTV,妈咪喊你补考初中化学

  悲剧的CCTV出了一个低级失误。

  首先,昨天的《东方时空》节目里,指责果壳网造谣惑众,链接如下(兄弟们,可能需要截图存证,估计很快就会从CNTV网站删除了)。

  仔细跑去一看,这是果壳网里,专门开玩笑挖苦所谓砖家的小组“geek笑点低”小组里的帖子,链接如下,原文见后。注意原文明显是个玩笑,CCTV伟大的记者和编辑们,居然不知道那二十多个化学名词(例如“一氧化二氢”)都是“水”的意思,最来劲的是他们请的那位清华大学化学教授,这是什么样神奇的砖家啊。

     科学研究表明隔夜水中含有零醇、氧酚、羟基氢、氢羟酸、苛性氢、二零醚、正氧烷、氧乙烯、氢氧化氢、脱碳甲醛、一氧化二氢、氢化超氧酰、脱氰零醛肟、二聚氢氧酸酐、氢化脱磺硫酸、氧化脱羧乙酸、氢化脱苄苯甲醇等等化学物质,当你喝下隔夜水以后,这些化学物质会迅速的被你的消化系统吸收,进入血液循环到你身体的每一个角落,影响你几乎每一个生理反应。如果一次摄入过多,会导致你胃胀,恶心,呕吐,食欲不振。

  最搞笑的是,电视节目里,有个长镜头显示了这个帖子的一个网友回复:“由于摄入一氧化二氢而死亡的话,主要是淹死吧!”。

  今天一来,网上无数的帖子回复和微博转载都同情地说:“请不要嘲笑智力残障人士, 这是不对的!”。好吧,CCTV,妈咪喊你补考初中化学。

  呼吁百姓“不信谣,不传谣”,可自己的专业操守如此儿戏,公信力如此薄弱,怎能怪人家不信你。

交流多,创新就多

  转产品经理之后,能广泛接触整条业务链。好玩的事很多。

  例如旁听售前售后的同学打电话,体会如何控制情绪和语言,如何倾听。当她们成功地让一个犹豫不决的访问者下单时,我就忍不住欢呼起来。

  再例如与运营推广的同学合作,理解如何调动资源,策划活动。当她们分析抽样目标的追踪数据,挖掘出被忽略的事实时,我恨不得顶礼膜拜。

  当然,还是最擅长和技术团队打交道。满怀敬佩地看他们把一个巨大的航母造出来。在大家连续开会12小时筋疲力尽之后,给他们讲讲我以前陷入绝境时的这个故事

  此前的职业生涯,我从事生物信息这种交叉学科的应用软件开发。这是一件幸运的事。大多数程序员没机会和生物学家一起杀老鼠做实验(最早记录的BLOG是这一篇这一篇,后面还有很多了)。程序员喜欢演绎,而生物学家则擅长归纳(与此相关的笑话)。同时,词汇表或者说隐喻,是跨领域交流时必须注意的重要问题

  从这段经历体会到,与不同领域的人进行交流,可能是最快的创新方式(最早是dmq教授向我明确描述出这个道理的)。有段TED视频也是在说这个道理。大多数惊为天人的创新,其实是一点点借鉴完善出来的。早期的汽车方向控制器的产品形式,试过马车的缰绳、自行车的横把、飞机的拉杆,最后终于发现轮船的舵轮是最合适的模式。