流水帐

  前天晚上紧急飞到杭州来,参加昨天早上的项目会议。此前邮件里,各方面虽然都推荐我是这项目最合适的pd,但又都认为工作将会很困难。会上,我把技术和业务瓶颈都说清楚了,等老大们斟酌。很多技术困难说到底还是商务问题。3个公司5个团队,需要大量协调。

  好一阵没写代码。这两天为给ODPS写用户文档,用MapReduce写个Join的例子。也算活动活动生锈的大脑部件。

  编程这手艺放下就会生疏。周围好多人都说要一直写代码到退休。而离开编程的人,受到各种鄙视,尤其是他自己的鄙视。

  昨晚11点下班的时候,跑到三层去看nh老大。他忙得都顾不上理我了。公司里一大坨人都在电脑上看欧洲杯(CNTV网站的底层租用阿里云的各项云服务,例如CDN,欧洲杯期间视频流量爆发性增长),nh这几天需要连续通宵值守。

  今天中午偏头痛又犯了,回宾馆睡了会儿,下午支撑着过来,终于调通了程序。还挺有成就感的,头居然也不疼了。刚订了飞机票,明天可以飞回北京了。

近几年内,国内公有云会怎么发展?

  我在知乎上回答了一个问题:近几年内,云计算会有怎么的发展?

     只说说公有云。对私有云不了解。

     1.最近云计算领域的关键词是“落地”。国内共有云基础设施将逐步成熟,领先的公司有望收支平衡。随着价格战的展开,泡沫落潮,没穿内裤的游泳者会逐步出局。

     2.地方政府推动的所谓云计算项目,会找公有云商业公司合作。前者擅长出钱、征地、修机房、买机器,并拉上来一些当地客户。而拥有技术和运营能力的商业公司,负责提供品牌、开发软件、部署系统、运维。

     3.越来越多的天使投资人和风险投资人会要求互联网创业团队在创业初期租用公有云。这比一开始就买很多硬件和带宽放在那里日日夜夜产生折旧成本,风险更小。支出成本与业务量之间线性相关,一旦业务转型包袱比较轻,这更符合财务投资的原则。

     4.Saas类的产品会再次迎来机会。此前的一些RCM、ERP、SCM软件的Saas化尝试不算特别成功,原因是业务模式只改了一半:客户这边变成了按需租用,但支出成本这边却仍然不变, 需要自己建机房买机器,这导致现金流循环的周期太长。有了底层Iaas和Paas供应商,Saas从业者可以按需租用,节省运维费用,成本就降下来了。

     5.移动智能手机的进展会促进云计算的发展。

     6.电子商务从业者方面,用数据仓库、数据挖掘技术支撑运营,会逐渐变成默认标配。中小电商不会投资独立设施,会租用云计算。

     7.弹性计算、云存储、大数据处理,这三大主题陆续都会变成红海。业者需要寻找新的技术和业务模式的创新。

     8 传统意义上的高性能计算的非互联网客户,例如物理、天文、地质、材料,生化等计算的市场,会逐渐往云计算平台上转,但这是一个漫长的过程。曙光6000和天河1号这样的超算中心将来还是会活的很滋润。两边各自擅长于不同的市场(IO密集型和计算密集型)。

三个活动

  接下来几天将连续去听几个与海量数据分析有关的研讨会,希望能与大家多交流。

  5月25日打算去第四届中国云计算大会现场。我对主题为“云计算与大数据”的track2最感兴趣。另外,在track1里,有我们阿里云核心研发团队的老大的一个报告,分享题目是《飞天大规模分布式计算系统》,也欢迎大家去听。

  5月26日要参加淘宝技术沙龙。主要关注话题1《超大规模数据挖掘架构及数据分析技巧》。另外话题2是由我们阿里云公司的搜索部门的牛人做的报告《云搜索与推荐》,其实几个话题以及后面分组讨论的内容都很吸引我,可惜要赶去上海的飞机,所以时间有限。

  5月27日计划到上海参加第二届中国推荐系统大会。上午是xVector(项亮)的会前培训。下午是来自淘宝、土豆、大众点评的推荐系统带头人分享。

yb和emily的论文发表了

  刚收到DMQ教授的邮件,yb和emily的学术论文An Integrated Workflow for Identification of Cross-linked Peptides from Complex Samples很快就要发表在Nature Methods上了。

  强烈祝贺。然后写点回忆,这是一个很长的故事。

  第一次见到yb是搬着服务器去BPRC测试的时候。他还是实验室里的一个低薪临时工,干着不擅长不喜欢的边缘工作。但jw和lz评价说:“yb这家伙的坚定理想就是献身科学”。后来DMQ教授回国,四处求贤,yb就成了最早一批加入dong lab的员工,拥有了至关重要的平台。

  yb想做cross link,最初周围反应不算积极。这是真正的重大创新。他的技术方案是把两个肽段粘在一起送进质谱。单肽运算量尚且很大,两个肽段的计算规模又变成了N*N,这自然涉及到大规模数据处理,于是国内唯一拥有自主蛋白质搜索引擎的pFind组就成了他的合作伙伴。具体负责pFind cross link版的程序员是宇宙超级无敌代码美少女emily。

  然后就是死磕,死磕,死磕……这个BLOG的大部分读者大概对技术细节不感兴趣,内幕很可怕,不细说。要想看整体,可以读yb的论文;想了解并行计算负载均衡调度有关的部分,可以看我的论文和专利

  这事做了很多年。yb孩子出生那几个月,还每天在实验室里熬夜。pFind组也付出了艰辛努力。发一篇影响因子超过20的顶级国际期刊,经过各国领军的同行评审并同意发表,哪有那么容易。投稿被拒不止一次。试验数据不断补充,最后增加到存储和传输都成了问题(中国没有亚马逊在美国的数据迁移物流服务,把一整卡车的硬盘安全送到另外一个州,且保证数据不损坏)。

  这事做了很多年。我和yb逐渐成了好朋友。我们两个年龄差不多,经历也很像,都曾经是实验室里打杂的二等员工,最后作出一些让旁人跌碎眼镜的成果。苦闷的时候,在一起喝酒。他说,有勇气的理想主义者不多。

  这事做了很多年。做到最后,emily写完所有代码,把所有能想到的东西都整理成文档,把自己曾经遇到过的坑都仔细说给接手人之后,就到上海当大摩金融女去了。最后的最后,因为pFind团队放弃创业,我也跳槽到阿里云来搞ODPS了。走前做的最后一次超级计算机上的大规模数据试验,就包括pFind cross link版的测试,确保几百核CPU的机器上加速效率依然超过80%(嗯,我那个负载均衡算法目前依然是世界第一,大大领先于美国同行)。

  我走的时候,好多人给我打很长的电话,yb也是其中之一。

  留下来把事彻底干完的yb,再见面气场肯定占优势。这个世界最棒的特点就是,能长久持续的幸福感都与物欲无关。我得抓紧时间让yb请吃饭。这家伙快去美国了,学术生涯的第一篇论文,起点真tmd高。

我将参加easyhadoop聚会,并做一个分享讲座

  我将在第三次easyhadoop聚会上做一个分享讲座,题目是《阿里云ODPS:云端数据仓库服务》。

  ODPS目前尚处在邀请试用阶段。金融、零售、现代制造业和电子商务企业的BI团队租用ODPS服务进行海量数据的分析和挖掘,。这次我将简单分享一下产品的特点和客户应用案例。期待与你交流。

  地点:北京市海淀区新街口外北京师范大学教7楼302教室。

  时间:2012年05月19日本周六13:30 – 17:00。

《伯罗奔尼撒战争史》读后感之五:西西里远征(完结篇)

  一开始写《伯罗奔尼撒战争史》读后感的时候,只打算写一篇BLOG,没想到拖成了一个系列。我没有能力对这本巨著进行全景汇总,仅仅是对自己印象深刻的碎片做些记录。本篇将是最后一篇,此前的4篇分别是:

  此前写过,战争初期两个阵营都收缩战线集中兵力,没占优势的情况下不主动进攻,在消耗和忍耐中等待对方犯错。伯里克利反复提醒雅典民众:“只要这场战争还在继续,雅典就必须停止无度扩张。只要我们不陷入新的麻烦,就有理由对最终胜利保持信心。我怕的不是敌人的奸计,而是我们自己的贪婪愚蠢。”由于拥有制海权,雅典在战略上更主动,如果每年夏季围魏救赵的游戏一直耗下去,他们立于不败之地。

  伯里克利去世,接下来的雅典执政官们都只能靠讨好民众维系自己的政治地位。于是政局逐渐滑向民粹主义的狂热气氛。相反,斯巴达人的政治决策似乎总显得缓慢笨拙(整本书里,他们议会讲演里全是“不要急于定下来”这一类的告诫),但方针一经确立就会贯彻始终。

  《孙子兵法》里讲:未战庙算。雅典人在远征西西里之前,就已注定要惨败。先看看雅典的两个领袖:

  亚西比德纯粹是为了个人私利煽动民众的好战情绪和帝国野心,“个人野心驱动了对于雅典和同盟不利的政策。这些政策如果成功,只会使个人得到名誉和权利;一旦失败,就会使整个雅典受到重大损失。”

  而尼西亚斯,尽管还算明智,却缺乏威望和勇气。他无法阻止议案的投票,只能试图通过夸大远征所需资源和人力的投入来吓住民众。没料到狂热的民众只听进去一半道理,像失去理智的赌徒一样加重筹码,居然欢呼着同意了天文数字的舰队、人力和资金的要求。

  这么一搞,与正面胜负、战略要地、长远策略毫无关系的一次边陲殖民远征,突然变成了押上所有身家性命的豪赌。

  单单如此还好,毕竟雅典实力雄厚,举倾国之兵,哪有那么容易惨败。既然听从亚西比德的计划发动战争,就该用人不疑,全力支持,速战速决,等打赢再说。可舰队都出去了,城里偏又搞出个诡异的“赫尔密斯神像”事件来内斗,逼着亚西比德这么个了解全局的一线最高指挥官叛逃到斯巴达去,彻底让人家知己知彼。更要命的是,三个指挥官少了一个,没办法投票表决,居然把部队一分为二,抽签决定谁指挥哪一部分,然后各自为战,这是什么样悲剧的决策啊。

  斯巴达当然不会放弃这个天赐良机,举兵侵入阿提卡。以前斯巴达军队入侵不会长期停留,(因为雅典一般会反过来派海军袭击伯罗奔尼撒半岛沿岸地区),他们撤走后雅典人还可以利用土地。但这次,斯巴达王阿基斯亲自坐镇,指挥陆军建立要塞,终年驻扎,定期换防,不断攻击掠夺雅典城周围的地区。雅典城的奴隶大量逃亡,陷入两线作战的被动局面,这是伯里克利当年反复提醒千万要避免的局面。

  西西里方面的战争很曲折漫长,有趣的细节很多。最后几万希腊人放弃船只,步行突围,死者没有埋葬,伤员难以带走,人心涣散,全军覆没已经难以避免。看到一代名将尼西亚斯被俘之后的悲惨下场,不禁让人合上书,长长地呼一口气。

  在此次惨败之后,雅典又坚持了6年才完全垮掉,反衬出当初远征西西里决策有多愚蠢。不细说。

  在几千年前,修昔底德就在这本书里总结说:战争的本质动机是贪婪,狂热地追求权力和占有欲。“只要人性不变,以后还会是这样。”类似的话,《史记》里有,波斯的《世界征服者史》也有。

  最后写几句跑偏的话。不知道很多军事论坛里的愤青怎么回事,张嘴闭嘴就要让别人亡国灭种。其实历史上每个帝国,最初都兴于谨慎、勤勉和自我克制,最终都亡于野心、贪欲和妄想。我猜,很多人可能在真实世界里一事无成,在网游里扮演诸葛亮,在论坛里YY美国总统或者毛爷爷,没意识到自己只是古往今来被蛊惑、操控和利用的千万草民中的一个而已。

easyHadoop、Resys以及追女生的行动次序问题

  最近不断参加各种非正式的技术沙龙,接触网站和创业者的运营团队和数据分析团队,也就是ODPS的潜在用户,了解需求和业务。工作比较累,BLOG更新拖延了,抱歉。这次先写点零零碎碎的东西,接下来会尽快补上此前没写完的东西,例如《伯罗奔尼撒战争史》读后感系列的收尾部分。

  4月中旬,参加了easyHadoop的第二次开发者聚会。后来还和暴风的童小军向磊做了进一步交流。easyHadoop是致力于普及Hadoop、HIVE等开源Big Data数据分析解决方案的志愿者组织,开源了phpHiveAdmin、HappyETL等一系列实用工具。如果你跃跃欲试想找实践机会,参加easyHadoop社团的活动是个好选择。

  5月份还打算去上海参加第二届中国推荐系统大会。推荐系统现在很受关注,Resys在北京的每次活动都爆满抢不到座位。我最早关注,还是因为那次记错时间到贝塔咖啡,误打误撞闯入了这帮极客的线下聚会。当时是xVector分享他参加Netflix数据挖掘大赛的经历。(什么,你没听说过Netflix百万美元的推荐算法大赛,欢迎来地球。那次比赛里,在截至时间只有20分钟的时候,xVector的算法痛失领先地位,没拿到100万美元的奖金)。xVector进入工业界以后,42qu请他又讲了一次。这次上海的会,他将做一次很有干货的会前培训。

  值得一提的是,当年Netflix大赛,各参赛队都是租用亚马逊的EC2弹性计算,部署Hadoop跑统计和拟合算法的。纽约时报对这此的连续报道,也给亚马逊的AWS做了免费的广告。希望未来ODPS能在纽约时报上获得同样的露面机会。

  最后写点非技术八卦。42qu上有个小伙儿怯生生问大家,他喜欢身边的一个女孩,怎么办。一帮技术宅男七嘴八舌给他出馊主意,例如给女孩子做个网站,或者上天涯发动网络舆论帮忙。我是这么回的:

     常规流程是:闲聊、邀请、吃饭、逛商场、看电影、逛公园、送礼物、表白、小亲密、推倒……你也可尝试倒序执行。

     别相信前面那些码农的雷人YY。以上任何阶段插入“网上舆论造势”和“编写网站”啥的,均会引发“女生不兼容”异常,进程将报错退出。

CCTV,妈咪喊你补考初中化学

  悲剧的CCTV出了一个低级失误。

  首先,昨天的《东方时空》节目里,指责果壳网造谣惑众,链接如下(兄弟们,可能需要截图存证,估计很快就会从CNTV网站删除了)。

  仔细跑去一看,这是果壳网里,专门开玩笑挖苦所谓砖家的小组“geek笑点低”小组里的帖子,链接如下,原文见后。注意原文明显是个玩笑,CCTV伟大的记者和编辑们,居然不知道那二十多个化学名词(例如“一氧化二氢”)都是“水”的意思,最来劲的是他们请的那位清华大学化学教授,这是什么样神奇的砖家啊。

     科学研究表明隔夜水中含有零醇、氧酚、羟基氢、氢羟酸、苛性氢、二零醚、正氧烷、氧乙烯、氢氧化氢、脱碳甲醛、一氧化二氢、氢化超氧酰、脱氰零醛肟、二聚氢氧酸酐、氢化脱磺硫酸、氧化脱羧乙酸、氢化脱苄苯甲醇等等化学物质,当你喝下隔夜水以后,这些化学物质会迅速的被你的消化系统吸收,进入血液循环到你身体的每一个角落,影响你几乎每一个生理反应。如果一次摄入过多,会导致你胃胀,恶心,呕吐,食欲不振。

  最搞笑的是,电视节目里,有个长镜头显示了这个帖子的一个网友回复:“由于摄入一氧化二氢而死亡的话,主要是淹死吧!”。

  今天一来,网上无数的帖子回复和微博转载都同情地说:“请不要嘲笑智力残障人士, 这是不对的!”。好吧,CCTV,妈咪喊你补考初中化学。

  呼吁百姓“不信谣,不传谣”,可自己的专业操守如此儿戏,公信力如此薄弱,怎能怪人家不信你。

百度技术沙龙:海量数据处理技术

  今天去参加InfoQ举办的百度技术沙龙,主题是海量数据处理技术解析。在开始之前,看到这个视频《盒子里的梦想》,觉得拍得挺有意思。

  第一个讲演者杨栋,在计算所的时候就认识。当时他是曙光5000分布式文件系统的主力开发者。到了百度以后,就成为分布式系统方面的主力。在很多技术交流会上都有报告。这次的PPT重点是Hypertable的各种性能优化。他特别强调profiling的重要性,我对此深有体会。

  第二个讲演者徐振华,是58同城(58.com)云平台的技术负责人。尽管这个神奇的网站规模小于百度,但是报告内容还是有不少实践方面的干货的。其中一个案例是关于离线处理的数据统计应用的。我对此特别感兴趣,报告下来也和他做了一点交流。

  后来计算所的查礼研究员也做了分享。提到了HIVE里面RCFile的技术细节。刚好最近正在了解阿里云ODPS内核里面的类似数据结构。

  转产品经理以后,每天都是大量邮件、电话、会议,交流非技术的业务和人的问题。即使出来参加活动,也是车库咖啡面向创业者。有一阵没参加比较纯粹的技术沙龙了,心情很复杂呀,呵呵。

《伯罗奔尼撒战争史》读后感之四:弱国的内部党争

  此前的内容在这里这里这里

  漫长的战争中,相对于超级两强,夹在中间的其他小国的命运就更加悲惨无奈一些。由于受到外力影响,这些小城邦内部或多或少都出现了政治分裂,出现了亲雅典和斯巴达的对立派别。而内斗往往更加残酷。书里描写科西拉的反复政治斗争时,是这样描述的:

     对立党派都到外国寻求援助,以对付敌人,巩固自身……这引起了巨大的灾殃——这种灾殃现在发生,只要人性不变,未来还会发生……在和平繁荣的时代,人们相对高尚,因为不必为环境所迫做亏心事。但战争是严厉的教师,会让普通人的心志降低……过去被看作是鲁莽的,这时被看作是勇敢;过去被看作严谨的,这时被看作是懦弱;过去被看作客观中允的,这时被看作没有主见;过去被看做深思熟虑的,这时被看作没有行动力。狂热偏激才算男子汉,阴谋诡计才算合理……

     凡是不认同卑鄙手段的,就被同志攻击为分裂者和投降份子。家族关系不如党派关系强固……党派的成员彼此信任,不是因为他们有共同信仰,而是因为他们是犯罪的同伙。而敌人的言论,无论多么合理,一律都是错的……

     领袖们各个有表面光鲜的说辞,冒充为公众利益服务,但事实上都为自己谋私利……为了证明可耻行为的合理性,就煽动仇恨,鼓励陷害。所以抱着温和观点的中间派公民,会同时受两个极端党派的摧残……

     于是,在整个希腊世界中,品性普遍地堕落了……

  看到这里,只能掩卷叹息。“这种灾殃现在发生,只要人性不变,未来还会发生”。过去百年,我们的历史又一次验证了修昔底德几千年前的这句话。夹在列强中间的大白象,受外力的操控左右互搏,援助往往夹带着教唆,希望你两败俱伤,自我消耗。两派都宣称自己是正义的救世主,指责对方是魔鬼,是“苏俄间谍”或者“英美帝国主义的走狗”,其实它们之间并没有多大差别。几十年血雨腥风下来,最终没有真正意义的胜利者,整个社会的心志水平大大倒退。

  补:一开始写《伯罗奔尼撒战争史》读后感,只打算写一篇BLOG,没想到拖成了一个系列。我没有能力对这本巨著进行全景汇总,仅仅是对自己印象深刻的碎片做些记录。这个系列的5篇分别是:

 《伯罗奔尼撒战争史》读后感开篇
 《伯罗奔尼撒战争史》读后感之二:古希腊时代的冷战
 《伯罗奔尼撒战争史》读后感之三:战争之初,伯里克利VS阿基达马斯
 《伯罗奔尼撒战争史》读后感之四:弱国的内部党争
 《伯罗奔尼撒战争史》读后感之五:西西里远征