Monthly Archives: May 2012

近几年内,国内公有云会怎么发展?

  我在知乎上回答了一个问题:近几年内,云计算会有怎么的发展?

     只说说公有云。对私有云不了解。

     1.最近云计算领域的关键词是“落地”。国内共有云基础设施将逐步成熟,领先的公司有望收支平衡。随着价格战的展开,泡沫落潮,没穿内裤的游泳者会逐步出局。

     2.地方政府推动的所谓云计算项目,会找公有云商业公司合作。前者擅长出钱、征地、修机房、买机器,并拉上来一些当地客户。而拥有技术和运营能力的商业公司,负责提供品牌、开发软件、部署系统、运维。

     3.越来越多的天使投资人和风险投资人会要求互联网创业团队在创业初期租用公有云。这比一开始就买很多硬件和带宽放在那里日日夜夜产生折旧成本,风险更小。支出成本与业务量之间线性相关,一旦业务转型包袱比较轻,这更符合财务投资的原则。

     4.Saas类的产品会再次迎来机会。此前的一些RCM、ERP、SCM软件的Saas化尝试不算特别成功,原因是业务模式只改了一半:客户这边变成了按需租用,但支出成本这边却仍然不变, 需要自己建机房买机器,这导致现金流循环的周期太长。有了底层Iaas和Paas供应商,Saas从业者可以按需租用,节省运维费用,成本就降下来了。

     5.移动智能手机的进展会促进云计算的发展。

     6.电子商务从业者方面,用数据仓库、数据挖掘技术支撑运营,会逐渐变成默认标配。中小电商不会投资独立设施,会租用云计算。

     7.弹性计算、云存储、大数据处理,这三大主题陆续都会变成红海。业者需要寻找新的技术和业务模式的创新。

     8 传统意义上的高性能计算的非互联网客户,例如物理、天文、地质、材料,生化等计算的市场,会逐渐往云计算平台上转,但这是一个漫长的过程。曙光6000和天河1号这样的超算中心将来还是会活的很滋润。两边各自擅长于不同的市场(IO密集型和计算密集型)。

三个活动

  接下来几天将连续去听几个与海量数据分析有关的研讨会,希望能与大家多交流。

  5月25日打算去第四届中国云计算大会现场。我对主题为“云计算与大数据”的track2最感兴趣。另外,在track1里,有我们阿里云核心研发团队的老大的一个报告,分享题目是《飞天大规模分布式计算系统》,也欢迎大家去听。

  5月26日要参加淘宝技术沙龙。主要关注话题1《超大规模数据挖掘架构及数据分析技巧》。另外话题2是由我们阿里云公司的搜索部门的牛人做的报告《云搜索与推荐》,其实几个话题以及后面分组讨论的内容都很吸引我,可惜要赶去上海的飞机,所以时间有限。

  5月27日计划到上海参加第二届中国推荐系统大会。上午是xVector(项亮)的会前培训。下午是来自淘宝、土豆、大众点评的推荐系统带头人分享。

yb和emily的论文发表了

  刚收到DMQ教授的邮件,yb和emily的学术论文An Integrated Workflow for Identification of Cross-linked Peptides from Complex Samples很快就要发表在Nature Methods上了。

  强烈祝贺。然后写点回忆,这是一个很长的故事。

  第一次见到yb是搬着服务器去BPRC测试的时候。他还是实验室里的一个低薪临时工,干着不擅长不喜欢的边缘工作。但jw和lz评价说:“yb这家伙的坚定理想就是献身科学”。后来DMQ教授回国,四处求贤,yb就成了最早一批加入dong lab的员工,拥有了至关重要的平台。

  yb想做cross link,最初周围反应不算积极。这是真正的重大创新。他的技术方案是把两个肽段粘在一起送进质谱。单肽运算量尚且很大,两个肽段的计算规模又变成了N*N,这自然涉及到大规模数据处理,于是国内唯一拥有自主蛋白质搜索引擎的pFind组就成了他的合作伙伴。具体负责pFind cross link版的程序员是宇宙超级无敌代码美少女emily。

  然后就是死磕,死磕,死磕……这个BLOG的大部分读者大概对技术细节不感兴趣,内幕很可怕,不细说。要想看整体,可以读yb的论文;想了解并行计算负载均衡调度有关的部分,可以看我的论文和专利

  这事做了很多年。yb孩子出生那几个月,还每天在实验室里熬夜。pFind组也付出了艰辛努力。发一篇影响因子超过20的顶级国际期刊,经过各国领军的同行评审并同意发表,哪有那么容易。投稿被拒不止一次。试验数据不断补充,最后增加到存储和传输都成了问题(中国没有亚马逊在美国的数据迁移物流服务,把一整卡车的硬盘安全送到另外一个州,且保证数据不损坏)。

  这事做了很多年。我和yb逐渐成了好朋友。我们两个年龄差不多,经历也很像,都曾经是实验室里打杂的二等员工,最后作出一些让旁人跌碎眼镜的成果。苦闷的时候,在一起喝酒。他说,有勇气的理想主义者不多。

  这事做了很多年。做到最后,emily写完所有代码,把所有能想到的东西都整理成文档,把自己曾经遇到过的坑都仔细说给接手人之后,就到上海当大摩金融女去了。最后的最后,因为pFind团队放弃创业,我也跳槽到阿里云来搞ODPS了。走前做的最后一次超级计算机上的大规模数据试验,就包括pFind cross link版的测试,确保几百核CPU的机器上加速效率依然超过80%(嗯,我那个负载均衡算法目前依然是世界第一,大大领先于美国同行)。

  我走的时候,好多人给我打很长的电话,yb也是其中之一。

  留下来把事彻底干完的yb,再见面气场肯定占优势。这个世界最棒的特点就是,能长久持续的幸福感都与物欲无关。我得抓紧时间让yb请吃饭。这家伙快去美国了,学术生涯的第一篇论文,起点真tmd高。

我将参加easyhadoop聚会,并做一个分享讲座

  我将在第三次easyhadoop聚会上做一个分享讲座,题目是《阿里云ODPS:云端数据仓库服务》。

  ODPS目前尚处在邀请试用阶段。金融、零售、现代制造业和电子商务企业的BI团队租用ODPS服务进行海量数据的分析和挖掘,。这次我将简单分享一下产品的特点和客户应用案例。期待与你交流。

  地点:北京市海淀区新街口外北京师范大学教7楼302教室。

  时间:2012年05月19日本周六13:30 – 17:00。

《伯罗奔尼撒战争史》读后感之五:西西里远征(完结篇)

  一开始写《伯罗奔尼撒战争史》读后感的时候,只打算写一篇BLOG,没想到拖成了一个系列。我没有能力对这本巨著进行全景汇总,仅仅是对自己印象深刻的碎片做些记录。本篇将是最后一篇,此前的4篇分别是:

  此前写过,战争初期两个阵营都收缩战线集中兵力,没占优势的情况下不主动进攻,在消耗和忍耐中等待对方犯错。伯里克利反复提醒雅典民众:“只要这场战争还在继续,雅典就必须停止无度扩张。只要我们不陷入新的麻烦,就有理由对最终胜利保持信心。我怕的不是敌人的奸计,而是我们自己的贪婪愚蠢。”由于拥有制海权,雅典在战略上更主动,如果每年夏季围魏救赵的游戏一直耗下去,他们立于不败之地。

  伯里克利去世,接下来的雅典执政官们都只能靠讨好民众维系自己的政治地位。于是政局逐渐滑向民粹主义的狂热气氛。相反,斯巴达人的政治决策似乎总显得缓慢笨拙(整本书里,他们议会讲演里全是“不要急于定下来”这一类的告诫),但方针一经确立就会贯彻始终。

  《孙子兵法》里讲:未战庙算。雅典人在远征西西里之前,就已注定要惨败。先看看雅典的两个领袖:

  亚西比德纯粹是为了个人私利煽动民众的好战情绪和帝国野心,“个人野心驱动了对于雅典和同盟不利的政策。这些政策如果成功,只会使个人得到名誉和权利;一旦失败,就会使整个雅典受到重大损失。”

  而尼西亚斯,尽管还算明智,却缺乏威望和勇气。他无法阻止议案的投票,只能试图通过夸大远征所需资源和人力的投入来吓住民众。没料到狂热的民众只听进去一半道理,像失去理智的赌徒一样加重筹码,居然欢呼着同意了天文数字的舰队、人力和资金的要求。

  这么一搞,与正面胜负、战略要地、长远策略毫无关系的一次边陲殖民远征,突然变成了押上所有身家性命的豪赌。

  单单如此还好,毕竟雅典实力雄厚,举倾国之兵,哪有那么容易惨败。既然听从亚西比德的计划发动战争,就该用人不疑,全力支持,速战速决,等打赢再说。可舰队都出去了,城里偏又搞出个诡异的“赫尔密斯神像”事件来内斗,逼着亚西比德这么个了解全局的一线最高指挥官叛逃到斯巴达去,彻底让人家知己知彼。更要命的是,三个指挥官少了一个,没办法投票表决,居然把部队一分为二,抽签决定谁指挥哪一部分,然后各自为战,这是什么样悲剧的决策啊。

  斯巴达当然不会放弃这个天赐良机,举兵侵入阿提卡。以前斯巴达军队入侵不会长期停留,(因为雅典一般会反过来派海军袭击伯罗奔尼撒半岛沿岸地区),他们撤走后雅典人还可以利用土地。但这次,斯巴达王阿基斯亲自坐镇,指挥陆军建立要塞,终年驻扎,定期换防,不断攻击掠夺雅典城周围的地区。雅典城的奴隶大量逃亡,陷入两线作战的被动局面,这是伯里克利当年反复提醒千万要避免的局面。

  西西里方面的战争很曲折漫长,有趣的细节很多。最后几万希腊人放弃船只,步行突围,死者没有埋葬,伤员难以带走,人心涣散,全军覆没已经难以避免。看到一代名将尼西亚斯被俘之后的悲惨下场,不禁让人合上书,长长地呼一口气。

  在此次惨败之后,雅典又坚持了6年才完全垮掉,反衬出当初远征西西里决策有多愚蠢。不细说。

  在几千年前,修昔底德就在这本书里总结说:战争的本质动机是贪婪,狂热地追求权力和占有欲。“只要人性不变,以后还会是这样。”类似的话,《史记》里有,波斯的《世界征服者史》也有。

  最后写几句跑偏的话。不知道很多军事论坛里的愤青怎么回事,张嘴闭嘴就要让别人亡国灭种。其实历史上每个帝国,最初都兴于谨慎、勤勉和自我克制,最终都亡于野心、贪欲和妄想。我猜,很多人可能在真实世界里一事无成,在网游里扮演诸葛亮,在论坛里YY美国总统或者毛爷爷,没意识到自己只是古往今来被蛊惑、操控和利用的千万草民中的一个而已。

easyHadoop、Resys以及追女生的行动次序问题

  最近不断参加各种非正式的技术沙龙,接触网站和创业者的运营团队和数据分析团队,也就是ODPS的潜在用户,了解需求和业务。工作比较累,BLOG更新拖延了,抱歉。这次先写点零零碎碎的东西,接下来会尽快补上此前没写完的东西,例如《伯罗奔尼撒战争史》读后感系列的收尾部分。

  4月中旬,参加了easyHadoop的第二次开发者聚会。后来还和暴风的童小军向磊做了进一步交流。easyHadoop是致力于普及Hadoop、HIVE等开源Big Data数据分析解决方案的志愿者组织,开源了phpHiveAdmin、HappyETL等一系列实用工具。如果你跃跃欲试想找实践机会,参加easyHadoop社团的活动是个好选择。

  5月份还打算去上海参加第二届中国推荐系统大会。推荐系统现在很受关注,Resys在北京的每次活动都爆满抢不到座位。我最早关注,还是因为那次记错时间到贝塔咖啡,误打误撞闯入了这帮极客的线下聚会。当时是xVector分享他参加Netflix数据挖掘大赛的经历。(什么,你没听说过Netflix百万美元的推荐算法大赛,欢迎来地球。那次比赛里,在截至时间只有20分钟的时候,xVector的算法痛失领先地位,没拿到100万美元的奖金)。xVector进入工业界以后,42qu请他又讲了一次。这次上海的会,他将做一次很有干货的会前培训。

  值得一提的是,当年Netflix大赛,各参赛队都是租用亚马逊的EC2弹性计算,部署Hadoop跑统计和拟合算法的。纽约时报对这此的连续报道,也给亚马逊的AWS做了免费的广告。希望未来ODPS能在纽约时报上获得同样的露面机会。

  最后写点非技术八卦。42qu上有个小伙儿怯生生问大家,他喜欢身边的一个女孩,怎么办。一帮技术宅男七嘴八舌给他出馊主意,例如给女孩子做个网站,或者上天涯发动网络舆论帮忙。我是这么回的:

     常规流程是:闲聊、邀请、吃饭、逛商场、看电影、逛公园、送礼物、表白、小亲密、推倒……你也可尝试倒序执行。

     别相信前面那些码农的雷人YY。以上任何阶段插入“网上舆论造势”和“编写网站”啥的,均会引发“女生不兼容”异常,进程将报错退出。