阿里云北京UED在招人。教主的团队正寻找视觉和前端人才,牛人们快联系她。
Category Archives: 打工日记
数据挖掘和哈姆雷特
关于推荐系统和数据挖掘想到点好玩的:电子书里的小说情节可以个性化。例如根据读者特点和所处位置修改男主角失恋后去的酒吧。再例如故事结局到底是黑色幽默或者苍凉离去呢,要根据读者是宅男还是文艺女青年来定制。真正实现一千个人眼里有一千个哈姆雷特。
好吧我承认,上面这个段子本来是另外一篇更长的文字里的点缀。最近因为工作需要,我在写一份与推荐系统有关的文档,技术和业务都会蜻蜓点水说说皮毛。其中的非涉密内容打算整理成独立一篇BLOG。忍不住先把这个小段子发布出来,也算给自己挖个坑,防止偷懒赖帐。
ODPS框架招聘研发和测试(北京)
经过阿里内部机构调整,接下来两年会是ODPS产品的关键阶段。我们在招人,北京这边需要Service框架的研发和测试。想了解上万节点的集群如何对上P数据进行大规模分布式处理,想知道互联网海量数据和各种数据挖掘算法如何服务于商业,想亲身参与真正的Big Data业务,就联系我们吧。
请点击后面这两个链接,查看研发工程师和测试工程师的具体职位描述。
ODPS目前最大的竞争对手其实不是Hadoop和HIVE,而是Google的Dremel和Big Query。
期待你的加入。也烦请各位朋友帮忙转发。
Boss H这么说emily的工作
上次提到yb和emily的论文发表了,那时候网上还搜索不到文章。现在已经正式出版,可以从pFind组的官方网站处下载。
周五的时候,我受邀去参加论文合作者的庆祝宴会。尽管已经从pFind离职了,还是很高兴能和大家再次分享和回忆这中间的故事。其实上次去上海的时候,我已经和emily吃饭庆祝了一次。
这次宴会里没有emily是大家的一个遗憾。Boss H在今天特别发了邮件:
|
我想特别祝贺emily,无论从算法的创新还是软件上的工作量,都值得敬佩,毕业答辩的PPT也很认真、很精彩。pLink这篇文章是大陆科学家独立完成的第三篇Nature Methods文章,是蛋白质组学的第一篇。希望这个成绩鼓舞emily在未来的工作和生活中再放异彩。路很长,慢慢走。 |
袖子曾经在一篇BLOG里提到过,他在离开后才意识到,自己已被打上了pFinder的烙印。这也是Boss H一向引以为傲的(你可以看看他的《致同学们》)。从这个组里出去的人能在新的岗位上承担大任,归功于在组里经受过高水平的训练,体验过什么叫做追求完美,什么叫世界前沿。当然,坦率地说,每人情况不同,有留下了终生痕迹念念不忘的,也有毕业第二天就不再是pFinder的。
yb要出国了,zf要出国了(关于他,看这一篇和这一篇),chf要出国了,某种意义上大家会渐行渐远。不过有些朋友,即使十年不联系,再打电话过来,也会马上去和他通宵喝酒。
关于yb和emily这篇论文,以后就尽量不在BLOG上提了,我离开学术界了,一切从头开始。不过我会一辈子为自己是这篇论文的第13作者而感到骄傲,这是一项真正可以改变世界的科学发现,也圆了我好多年前的梦想(刚刚查了查时间,那篇写愿望的BLOG恰恰是认识yb前一天写的,挺有趣。BLOG是一笔财富)。
yb和emily的论文发表了
刚收到DMQ教授的邮件,yb和emily的学术论文An Integrated Workflow for Identification of Cross-linked Peptides from Complex Samples很快就要发表在Nature Methods上了。
强烈祝贺。然后写点回忆,这是一个很长的故事。
第一次见到yb是搬着服务器去BPRC测试的时候。他还是实验室里的一个低薪临时工,干着不擅长不喜欢的边缘工作。但jw和lz评价说:“yb这家伙的坚定理想就是献身科学”。后来DMQ教授回国,四处求贤,yb就成了最早一批加入dong lab的员工,拥有了至关重要的平台。
yb想做cross link,最初周围反应不算积极。这是真正的重大创新。他的技术方案是把两个肽段粘在一起送进质谱。单肽运算量尚且很大,两个肽段的计算规模又变成了N*N,这自然涉及到大规模数据处理,于是国内唯一拥有自主蛋白质搜索引擎的pFind组就成了他的合作伙伴。具体负责pFind cross link版的程序员是宇宙超级无敌代码美少女emily。
然后就是死磕,死磕,死磕……这个BLOG的大部分读者大概对技术细节不感兴趣,内幕很可怕,不细说。要想看整体,可以读yb的论文;想了解并行计算负载均衡调度有关的部分,可以看我的论文和专利。
这事做了很多年。yb孩子出生那几个月,还每天在实验室里熬夜。pFind组也付出了艰辛努力。发一篇影响因子超过20的顶级国际期刊,经过各国领军的同行评审并同意发表,哪有那么容易。投稿被拒不止一次。试验数据不断补充,最后增加到存储和传输都成了问题(中国没有亚马逊在美国的数据迁移物流服务,把一整卡车的硬盘安全送到另外一个州,且保证数据不损坏)。
这事做了很多年。我和yb逐渐成了好朋友。我们两个年龄差不多,经历也很像,都曾经是实验室里打杂的二等员工,最后作出一些让旁人跌碎眼镜的成果。苦闷的时候,在一起喝酒。他说,有勇气的理想主义者不多。
这事做了很多年。做到最后,emily写完所有代码,把所有能想到的东西都整理成文档,把自己曾经遇到过的坑都仔细说给接手人之后,就到上海当大摩金融女去了。最后的最后,因为pFind团队放弃创业,我也跳槽到阿里云来搞ODPS了。走前做的最后一次超级计算机上的大规模数据试验,就包括pFind cross link版的测试,确保几百核CPU的机器上加速效率依然超过80%(嗯,我那个负载均衡算法目前依然是世界第一,大大领先于美国同行)。
我走的时候,好多人给我打很长的电话,yb也是其中之一。
留下来把事彻底干完的yb,再见面气场肯定占优势。这个世界最棒的特点就是,能长久持续的幸福感都与物欲无关。我得抓紧时间让yb请吃饭。这家伙快去美国了,学术生涯的第一篇论文,起点真tmd高。
easyHadoop、Resys以及追女生的行动次序问题
最近不断参加各种非正式的技术沙龙,接触网站和创业者的运营团队和数据分析团队,也就是ODPS的潜在用户,了解需求和业务。工作比较累,BLOG更新拖延了,抱歉。这次先写点零零碎碎的东西,接下来会尽快补上此前没写完的东西,例如《伯罗奔尼撒战争史》读后感系列的收尾部分。
4月中旬,参加了easyHadoop的第二次开发者聚会。后来还和暴风的童小军、向磊做了进一步交流。easyHadoop是致力于普及Hadoop、HIVE等开源Big Data数据分析解决方案的志愿者组织,开源了phpHiveAdmin、HappyETL等一系列实用工具。如果你跃跃欲试想找实践机会,参加easyHadoop社团的活动是个好选择。
5月份还打算去上海参加第二届中国推荐系统大会。推荐系统现在很受关注,Resys在北京的每次活动都爆满抢不到座位。我最早关注,还是因为那次记错时间到贝塔咖啡,误打误撞闯入了这帮极客的线下聚会。当时是xVector分享他参加Netflix数据挖掘大赛的经历。(什么,你没听说过Netflix百万美元的推荐算法大赛,欢迎来地球。那次比赛里,在截至时间只有20分钟的时候,xVector的算法痛失领先地位,没拿到100万美元的奖金)。xVector进入工业界以后,42qu请他又讲了一次。这次上海的会,他将做一次很有干货的会前培训。
值得一提的是,当年Netflix大赛,各参赛队都是租用亚马逊的EC2弹性计算,部署Hadoop跑统计和拟合算法的。纽约时报对这此的连续报道,也给亚马逊的AWS做了免费的广告。希望未来ODPS能在纽约时报上获得同样的露面机会。
最后写点非技术八卦。42qu上有个小伙儿怯生生问大家,他喜欢身边的一个女孩,怎么办。一帮技术宅男七嘴八舌给他出馊主意,例如给女孩子做个网站,或者上天涯发动网络舆论帮忙。我是这么回的:
|
常规流程是:闲聊、邀请、吃饭、逛商场、看电影、逛公园、送礼物、表白、小亲密、推倒……你也可尝试倒序执行。 别相信前面那些码农的雷人YY。以上任何阶段插入“网上舆论造势”和“编写网站”啥的,均会引发“女生不兼容”异常,进程将报错退出。 |
交流多,创新就多
转产品经理之后,能广泛接触整条业务链。好玩的事很多。
例如旁听售前售后的同学打电话,体会如何控制情绪和语言,如何倾听。当她们成功地让一个犹豫不决的访问者下单时,我就忍不住欢呼起来。
再例如与运营推广的同学合作,理解如何调动资源,策划活动。当她们分析抽样目标的追踪数据,挖掘出被忽略的事实时,我恨不得顶礼膜拜。
当然,还是最擅长和技术团队打交道。满怀敬佩地看他们把一个巨大的航母造出来。在大家连续开会12小时筋疲力尽之后,给他们讲讲我以前陷入绝境时的这个故事。
此前的职业生涯,我从事生物信息这种交叉学科的应用软件开发。这是一件幸运的事。大多数程序员没机会和生物学家一起杀老鼠做实验(最早记录的BLOG是这一篇和这一篇,后面还有很多了)。程序员喜欢演绎,而生物学家则擅长归纳(与此相关的笑话)。同时,词汇表或者说隐喻,是跨领域交流时必须注意的重要问题。
从这段经历体会到,与不同领域的人进行交流,可能是最快的创新方式(最早是dmq教授向我明确描述出这个道理的)。有段TED视频也是在说这个道理。大多数惊为天人的创新,其实是一点点借鉴完善出来的。早期的汽车方向控制器的产品形式,试过马车的缰绳、自行车的横把、飞机的拉杆,最后终于发现轮船的舵轮是最合适的模式。
西乔的漫画:Game Over
3月份的《程序员》杂志,西乔美女的《神秘的程序员们》系列漫画的最新一篇《Game Over》不得不推荐啊。想看更多的,可以去她博客上找。
前两天被合作公司的老总称赞说:“有些东西是天生的,学不来的”。尽管是客气恭维,我还是感到高兴。一直很钦佩这位创业者,所以他的夸奖令人兴奋。
《伯罗奔尼撒战争史》读后感之二:古希腊时代的冷战
有朋友问我是不是受到公司政策的限制,不能细说工作内容。作为专业人士,我清楚哪些东西该写,哪些不能。跳槽后大开眼界,时不时有分享的冲动。但浅尝辄止的感悟与躬身入局的经验根本不同,还是先踏实做成一个产品再说。
续前回未完的文字,更多《伯罗奔尼撒战争史》读后感。
古希腊著名战争很多:早期特洛伊战争的故事里还掺杂着神话传说,但已确定了海洋文明、城邦政治、全面贸易的特点。波希战争和后期的亚历山大东征都算一气呵成。而伯罗奔尼撒战争,因为是内战,在中国历史课本上被一句带过。其实这场战争的宏大、复杂以及残酷,是其它对外战争无法比拟的。
先解释背景。打败波斯入侵后,雅典建起强大的海军。众多小国与其签订条约,同意缴纳税供,或者向雅典指挥的联盟海军提供战船,享受雅典对其海上贸易和殖民地的保护。而希腊世界里原有的最强者和名义盟主是斯巴达(它的同盟国大多位于伯罗奔尼撒,因此史书里经常把斯巴达这一边阵营的联军称为伯罗奔尼撒军)。于是两个阵营的矛盾逐渐激化。顾准的《希腊的城邦制度》里说,希腊文明的外交、贸易和金融体制要比东方文明成熟。雅典和斯巴达两个集团的组织形式与现代的北约和华约有惊人的相似。当时还有一个类似今天联合国的机构。
战争的导火线是崛起的殖民地科林斯跟衰弱的母国科西拉闹独立,几场海战下来,双方各派外交使团去雅典争取支持。此前科林斯保持中立,既不属于雅典联盟也不属于斯巴达联盟,它又拥有除雅典以外最强大的海军,其政治立场影响全局。各种恩怨摩擦逐渐升级,牵连到几十个大小城邦。几番扭捏以后,两个超级大国相互指责对方违反了优卑亚休战条约,开打。
三十年间战争纠结反复,精彩程度不输三国演义,成就无数名将谋臣,也堆起累累白骨。此前一遍又一遍提过的:古希腊罗马的历史学家,大多是上过战场的贵族指挥官。他们写的战争场面,比中国史官写得更真实鲜明。下一篇BLOG会说说《伯罗奔尼撒战争史》里我个人觉得有意思的某些细节。
补:一开始写《伯罗奔尼撒战争史》读后感,只打算写一篇BLOG,没想到拖成了一个系列。我没有能力对这本巨著进行全景汇总,仅仅是对自己印象深刻的碎片做些记录。这个系列的5篇分别是:
《伯罗奔尼撒战争史》读后感开篇
《伯罗奔尼撒战争史》读后感之二:古希腊时代的冷战
《伯罗奔尼撒战争史》读后感之三:战争之初,伯里克利VS阿基达马斯
《伯罗奔尼撒战争史》读后感之四:弱国的内部党争
《伯罗奔尼撒战争史》读后感之五:西西里远征
淘宝数据盛典和ODPS
工作开始累起来,周五开电话会直到晚上22:30。周六又开了一整天的会,遗憾地错过了童小军组织的“EasyHadoop应用开发者聚会”。《伯罗奔尼撒战争史》的第二篇读后感又拖延了,罪过罪过。
自从来到阿里云,总被问:“在干啥?”。答曰:“ODPS”。又问:“ODPS是什么,能吃吗?”……这个,其实,之前已经在博客上透露过了。
淘宝数据分析团队的同学们做了这个浅显易懂的邪恶视频,充分展示了Big Data的商业潜力。如果想要更一本正经的市场分析,可以看看麦肯锡的这份报告,以及《福布斯》杂志的这篇报道。再深入一些,想了解如何租用ODPS服务对自己的网站进行数据挖据?看子楠和文志的这篇软文。

