Category Archives: 流水帐

三个活动

  接下来几天将连续去听几个与海量数据分析有关的研讨会,希望能与大家多交流。

  5月25日打算去第四届中国云计算大会现场。我对主题为“云计算与大数据”的track2最感兴趣。另外,在track1里,有我们阿里云核心研发团队的老大的一个报告,分享题目是《飞天大规模分布式计算系统》,也欢迎大家去听。

  5月26日要参加淘宝技术沙龙。主要关注话题1《超大规模数据挖掘架构及数据分析技巧》。另外话题2是由我们阿里云公司的搜索部门的牛人做的报告《云搜索与推荐》,其实几个话题以及后面分组讨论的内容都很吸引我,可惜要赶去上海的飞机,所以时间有限。

  5月27日计划到上海参加第二届中国推荐系统大会。上午是xVector(项亮)的会前培训。下午是来自淘宝、土豆、大众点评的推荐系统带头人分享。

yb和emily的论文发表了

  刚收到DMQ教授的邮件,yb和emily的学术论文An Integrated Workflow for Identification of Cross-linked Peptides from Complex Samples很快就要发表在Nature Methods上了。

  强烈祝贺。然后写点回忆,这是一个很长的故事。

  第一次见到yb是搬着服务器去BPRC测试的时候。他还是实验室里的一个低薪临时工,干着不擅长不喜欢的边缘工作。但jw和lz评价说:“yb这家伙的坚定理想就是献身科学”。后来DMQ教授回国,四处求贤,yb就成了最早一批加入dong lab的员工,拥有了至关重要的平台。

  yb想做cross link,最初周围反应不算积极。这是真正的重大创新。他的技术方案是把两个肽段粘在一起送进质谱。单肽运算量尚且很大,两个肽段的计算规模又变成了N*N,这自然涉及到大规模数据处理,于是国内唯一拥有自主蛋白质搜索引擎的pFind组就成了他的合作伙伴。具体负责pFind cross link版的程序员是宇宙超级无敌代码美少女emily。

  然后就是死磕,死磕,死磕……这个BLOG的大部分读者大概对技术细节不感兴趣,内幕很可怕,不细说。要想看整体,可以读yb的论文;想了解并行计算负载均衡调度有关的部分,可以看我的论文和专利

  这事做了很多年。yb孩子出生那几个月,还每天在实验室里熬夜。pFind组也付出了艰辛努力。发一篇影响因子超过20的顶级国际期刊,经过各国领军的同行评审并同意发表,哪有那么容易。投稿被拒不止一次。试验数据不断补充,最后增加到存储和传输都成了问题(中国没有亚马逊在美国的数据迁移物流服务,把一整卡车的硬盘安全送到另外一个州,且保证数据不损坏)。

  这事做了很多年。我和yb逐渐成了好朋友。我们两个年龄差不多,经历也很像,都曾经是实验室里打杂的二等员工,最后作出一些让旁人跌碎眼镜的成果。苦闷的时候,在一起喝酒。他说,有勇气的理想主义者不多。

  这事做了很多年。做到最后,emily写完所有代码,把所有能想到的东西都整理成文档,把自己曾经遇到过的坑都仔细说给接手人之后,就到上海当大摩金融女去了。最后的最后,因为pFind团队放弃创业,我也跳槽到阿里云来搞ODPS了。走前做的最后一次超级计算机上的大规模数据试验,就包括pFind cross link版的测试,确保几百核CPU的机器上加速效率依然超过80%(嗯,我那个负载均衡算法目前依然是世界第一,大大领先于美国同行)。

  我走的时候,好多人给我打很长的电话,yb也是其中之一。

  留下来把事彻底干完的yb,再见面气场肯定占优势。这个世界最棒的特点就是,能长久持续的幸福感都与物欲无关。我得抓紧时间让yb请吃饭。这家伙快去美国了,学术生涯的第一篇论文,起点真tmd高。

我将参加easyhadoop聚会,并做一个分享讲座

  我将在第三次easyhadoop聚会上做一个分享讲座,题目是《阿里云ODPS:云端数据仓库服务》。

  ODPS目前尚处在邀请试用阶段。金融、零售、现代制造业和电子商务企业的BI团队租用ODPS服务进行海量数据的分析和挖掘,。这次我将简单分享一下产品的特点和客户应用案例。期待与你交流。

  地点:北京市海淀区新街口外北京师范大学教7楼302教室。

  时间:2012年05月19日本周六13:30 – 17:00。

easyHadoop、Resys以及追女生的行动次序问题

  最近不断参加各种非正式的技术沙龙,接触网站和创业者的运营团队和数据分析团队,也就是ODPS的潜在用户,了解需求和业务。工作比较累,BLOG更新拖延了,抱歉。这次先写点零零碎碎的东西,接下来会尽快补上此前没写完的东西,例如《伯罗奔尼撒战争史》读后感系列的收尾部分。

  4月中旬,参加了easyHadoop的第二次开发者聚会。后来还和暴风的童小军向磊做了进一步交流。easyHadoop是致力于普及Hadoop、HIVE等开源Big Data数据分析解决方案的志愿者组织,开源了phpHiveAdmin、HappyETL等一系列实用工具。如果你跃跃欲试想找实践机会,参加easyHadoop社团的活动是个好选择。

  5月份还打算去上海参加第二届中国推荐系统大会。推荐系统现在很受关注,Resys在北京的每次活动都爆满抢不到座位。我最早关注,还是因为那次记错时间到贝塔咖啡,误打误撞闯入了这帮极客的线下聚会。当时是xVector分享他参加Netflix数据挖掘大赛的经历。(什么,你没听说过Netflix百万美元的推荐算法大赛,欢迎来地球。那次比赛里,在截至时间只有20分钟的时候,xVector的算法痛失领先地位,没拿到100万美元的奖金)。xVector进入工业界以后,42qu请他又讲了一次。这次上海的会,他将做一次很有干货的会前培训。

  值得一提的是,当年Netflix大赛,各参赛队都是租用亚马逊的EC2弹性计算,部署Hadoop跑统计和拟合算法的。纽约时报对这此的连续报道,也给亚马逊的AWS做了免费的广告。希望未来ODPS能在纽约时报上获得同样的露面机会。

  最后写点非技术八卦。42qu上有个小伙儿怯生生问大家,他喜欢身边的一个女孩,怎么办。一帮技术宅男七嘴八舌给他出馊主意,例如给女孩子做个网站,或者上天涯发动网络舆论帮忙。我是这么回的:

     常规流程是:闲聊、邀请、吃饭、逛商场、看电影、逛公园、送礼物、表白、小亲密、推倒……你也可尝试倒序执行。

     别相信前面那些码农的雷人YY。以上任何阶段插入“网上舆论造势”和“编写网站”啥的,均会引发“女生不兼容”异常,进程将报错退出。

交流多,创新就多

  转产品经理之后,能广泛接触整条业务链。好玩的事很多。

  例如旁听售前售后的同学打电话,体会如何控制情绪和语言,如何倾听。当她们成功地让一个犹豫不决的访问者下单时,我就忍不住欢呼起来。

  再例如与运营推广的同学合作,理解如何调动资源,策划活动。当她们分析抽样目标的追踪数据,挖掘出被忽略的事实时,我恨不得顶礼膜拜。

  当然,还是最擅长和技术团队打交道。满怀敬佩地看他们把一个巨大的航母造出来。在大家连续开会12小时筋疲力尽之后,给他们讲讲我以前陷入绝境时的这个故事

  此前的职业生涯,我从事生物信息这种交叉学科的应用软件开发。这是一件幸运的事。大多数程序员没机会和生物学家一起杀老鼠做实验(最早记录的BLOG是这一篇这一篇,后面还有很多了)。程序员喜欢演绎,而生物学家则擅长归纳(与此相关的笑话)。同时,词汇表或者说隐喻,是跨领域交流时必须注意的重要问题

  从这段经历体会到,与不同领域的人进行交流,可能是最快的创新方式(最早是dmq教授向我明确描述出这个道理的)。有段TED视频也是在说这个道理。大多数惊为天人的创新,其实是一点点借鉴完善出来的。早期的汽车方向控制器的产品形式,试过马车的缰绳、自行车的横把、飞机的拉杆,最后终于发现轮船的舵轮是最合适的模式。

OSS和OTS的区别?

  今天又到产品经理给营销部门作培训了。这次是鹿鹿介绍OSS,我和yj也跑去旁听,讲座很细致。

  结束的时候,有人问OSSOTS的区别,鹿鹿的解释比较正统,有些人还不能充分理解。我插嘴说,拿Office比喻,OSS类似Word,OTS就是Excel,后者有结构,有行和列。当然比起桌面软件,云服务可以存储T甚至P级的数据,通过网络访问,容错安全更强大。美女们纷纷点头说这个比喻用的好,听懂了。

  aliyun.com销售的不是最终产品,而是支撑程序员和创业者的后台服务。因此市场和技术的对接方面,产品经理就面临挑战。把艰深的技术词汇翻译成日常表达,其实还不是最难的。如何体会用户需求,再和技术部门合作炒出一盘好菜?这实在需要悟性、耐力和一点点运气。

  昨天动用领导,纠结的疙瘩总算有解,项目推动起来了。明天飞回北京。在杭州呆好久了,想女儿。之前说好的《伯罗奔尼撒战争史》的读后感,我会稍后补上。

阿里云平台的介绍

  刚回到北京,下周一还要飞。最近要应付的事多,接下来我一定会保证博客的更新频率和质量。现在先随便敲两句。

  这一期《程序员》杂志的副刊发表了一系列文章,全面介绍了阿里云平台,包括弹性计算、云存储和CDN、应用托管、结构化存储和大规模离线数据分析等等一整套服务。感兴趣的同学们可以看一看。想更深入了解甚至试用,直接去www.aliyun.com吧。

小故事

  这一篇和技术无关。

  给你们讲个小故事,从zw那里听来的。她在德国留学时,有段时间在养老院打工。自然,常有这种事:头一天还很健旺的老人,第二天床位就空出来了。有一位把自己收拾得很精致的92岁老太太,始终没有儿女来看她。她的未婚夫在二战时应征入伍,死在战场上,没再找别的男人。她说那是“erste Liebe, größte Liebe und letzte Liebe”(最初的爱情,伟大的爱情,也是最后的爱情)。

  我与袖子、emily的不同之处在于我更老,所以更糙。对自己说:“这事很对,但老子偏就不愿意”之后,不会多想。

  现在半夜,小娃娃又开始吭吭哧哧。就敲这些吧。

  新年,各自珍重。