几篇关于MapReduce的中文资料

  收集到几篇关于Google MapReduce的技术资料,供参考。   Tinyfool:什么是MapReduce? Google的分布运算开发工具!   梦想风暴:MapReduce   SQLiu:从Map和Reduce说起   is03kyh:My Map Reduce   田春峰:MapReduce:Google的人间大炮   Xerdoc:Map Reduce – the Free Lunch is not over?   IcyRiver:MapReduce与Database之争

怎么看待互联网公司进入医疗健康业?

  先看个好玩的。下面播放的这个名为Big genomic data on Google Cloud Platform的视频(在youtube上,得翻墙)简单介绍了如何通过Google的基础设施,例如Genomics API、BigQuery和 GAE Mapreduce ,在云端处理基因大数据。那个分析基因的BigQuery SQL代码例子你看懂了吗?   知因上有个问题:昨日爆出腾讯7000万美元投资中国最大的医疗健康互联网公司丁香园;雅虎将于今年10月正式启动个体基因数据库“HealthData Lab”项目;不久前,Google X部门启动 “基线”研究项目绘制健康人体图谱。你怎么看待互联网公司进入医疗健康业?他们在未来的医疗健康行业会起到怎样的作用?随着互联网公司的涉足,未来医疗健康行业又将如何发展呢?(原文链接)我做了如下回答:   算是和这个问题有点的关系的人。此前有好多年在科研机构里搞生物信息学。然后跳到互联网公司里做云计算。现在正准备跳出来创业,搞健康大数据和云计算。   感觉最大的区别是人的思维方式。互联网是竞争和变化非常激烈的行业,追求高效、专注、开放,有很多应对资本和人才流动的游戏规则。而生物制药这边,套路还有点传统。   举个例子,互联网出来的人创业,首先考虑的是怎么把自己做薄,把能放弃的都外包出去,专注于自己的最大优势。而传统健康领域出身的创业团队搞某件事,例如基因测序,思考方式似乎仍然比较宏大,停留在再造另外1个或者0.5个华大基因:测序仪,服务器,算法研发,数据分析,网络营销,地面推广,健康诊断,个性化医疗……   再举个例子,我没看到基因测序行业特别担心一线技术人员流失和跳槽,至少他们没有采取很明显的激励措施:提高工资、赠送期权、鼓励和参与员工进行内外部再次创业等等。相关专业的毕业生,例如生物信息,平均士气并不高,找工作的时候对未来普遍很迷茫。   未来会怎样?我不知道,至少目前阶段,互联网出身的人还处于劣势,他们不了解医药健康行业的特点和细节,缺少体系内的人脉和资源。但这些鲶鱼至少激发了整个行业的思考。让我们一起加油,看看两三年以后会变成什么样?   顺便发点小广告,我们在招人:http://knowgene.com/article/136

谈谈ODPS商业化(四):2014阿里巴巴大数据竞赛

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……   几天前2014阿里巴巴大数据竞赛刚刚落下帷幕,第11名的F1分数、准确率和召回率是6.10%、6.28%和5.93%。前10名的成绩还未公布,他们会被邀请到阿里巴巴公司来,有机会和内部团队一起参与双11。选手们闲下来,开始在群里爆特征、开玩笑、交换联系方式。   这次海内外共有7276支队报名。比赛分为多个阶段:S1是线下海选,从S2开始上ODPS,每月底淘汰末位的100支队,直到7月31日尘埃落定。选手们需要像阿里数据分析师一样工作,完全依赖云端的ODPS平台上的SQL、Mapreduce和Xlib/Xlab算法工具处理大数据,E2E完成建模全过程:划分训练集和测试集,选择模型,抽取特征,处理过拟合,采样正负样本(向上采样、向下采样),调参,特征和目标值的处理,模型融合……几个月下来,有不少同学分享了心得和感悟:   来着如临高山,往者以观逝水   成也solo,败也solo   事非经过不知难   大数据竞赛所历所思。   点说那些年参加过的竞赛   STO_OTZ队的比赛流水账以及心得感悟   那些在坑里翻滚的日子   一场比赛、一组数据、一个梦想   ODPS SQL 构建离线评估   超级啰嗦版ODPS MapReduce入门   第一季总结:LR入门   阿里大数据竞赛season1总结   有次看到阿里云后台的客服工单:“想实现逻辑回归分类算法,使用随机梯度下降算法来优化参数,怎么在大规模分布式系统下实现?你们的xlib已经有了,我就是想问问^_^”。阿里云的售后支持mm真心累啊。发了一条微博说:下次再有这种调戏就回答“想知道吗,给我们投简历吧。”结果第二天就有参赛选手分享了这篇博客: 在MapReduce中实现随机梯度下降法(这篇文章对算法实现原理写得很清楚了,但用Mapreduce编程模型实现迭代类算法性能是很弱的,大多数人还是直接用Xlib实现好了的逻辑回归、随机森林、GBRT等算法)。   还有好玩的,有一位在台湾上学的参赛者利用S1的参赛队的排名信息深入分析了一番,写了这个:阿里大数据 – 中国好大学   比赛筹备一年多,很辛苦,很成功,恭喜得福和一婷。对于即将毕业的学生来说,关注并参与这次比赛,能深入体会工业界数据分析师的工作场景。另外,除了比赛内容本身,我想提醒读者注意天池平台。数据交换的业务模式已经开始萌芽。   这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……

谈谈ODPS商业化(二):ODPS的计量计费模型

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……   ODPS正式商业化以后,微博上议论比较多的是计量计费模型。刚好这件事我全程参与,仔细写写。ODPS的计量计费规则和价格请以阿里云官方网站上的说明和数字为准。这里的内容只反映当前状态,不能保证实时更新。   ODPS收费以项目(Project)为单位,对存储、计算和数据下载三个方面分别计费。存储和数据下载的收费形式与其他云产品很类似。而计算这边,目前ODPS仅开放了SQL任务,计费公式为:一次SQL计算费用 = 计算输入数据量 * SQL复杂度 * SQL价格。具体而言:   1.计算输入数据量:指一个SQL语句实际扫描的数据量,大部分的SQL语句有分区过滤和列裁剪,所以一般情况下这个值会远小于源表数据大小。   2.SQL复杂度:先统计SQL语句中的关键字,再折算为SQL复杂度   SQL关键字个数 = Join个数 + Group By个数 + Order By个数 + Distinct个数 + 窗口函数个数 + analyze个数 + max( insert into个数-1, 1)      例如,用户输入的SQL语句是:INSERT INTO TABLE out1 SELECT * FROM shop a JOIN sale_detail b ON a.shop_name = b.shop_name;则其SQL关键字个数是2,而SQL复杂度是1。   再例如,用户输入的SQL语句是:SELECT DISTINCT total1 FROM (SELECT id1, COUNT(f1) […]

ODPS对外开放!

  ODPS刚刚上线成功,在阿里云官网对外开放!一期还仅仅开放Sql,很快会开放Mapreduce、Graph和Xlib等更多功能。公测阶段,用户还需要经过人工审核才能开通服务。   加入阿里两年。经历了这么多,俺把这件事做成了。   上个月AWS进中国反响很大,发了一条微博:“AWS进中国,对阿里云和用户当然都是好事。有了EMR,我ODPS就不再寂寞。明年可以好好杀一场。从进阿里第一天起,我就只盯着ODPS对外开放这一件事,终于快等到了。亚马逊,来战!”   2014年会很有趣,看ODPS如何把对手打得满地找牙!

开发者大会现场印象:5K、华大基因和AmyPI

  上周跑到杭州出差,主要是参加阿里云开发者大会。ODPS临近对外开放,所以想了解一下生态环境。好玩的东西很多,先写两个: 5K集群和华大基因   2013年8月,阿里云的飞天分布式平台成功实现单集群5000台、同时ODPS实现了多集群跨机房计算。国际上仅有Google、Facebook在内的屈指可数的几家公司拥有这样的技术!而5000节点单集群拥有的计算规模无疑是惊人的:   · 10万核的计算能力   · 100PB存储空间   · 可处理15万并发任务数   · 可承载亿级别文件数目   · 100TB 排序30分钟完成,是现有世界纪录的两倍以上   9月,阿里云把其中一个5K集群拿出来,搞了一次开发者ODPS体验。这是全球范围内第一次把如此强大的计算能力以公共服务方式分享给开发者。 参加的团队基于ODPS和5K集群都做出了很多有趣的成果。例如CSDN利用5K集群对人群标签进行数据挖掘。   而我最感兴趣的是华大基因在生物信息领域的开发工作。华大研究院的牛人们ODPS上实现了两个大规模的算法。其中一个是MapReduce的,另外一个短基因拼接图算法使用到了ODPS Graph Task编程接口(类似Google Pregel的BSP编程模型)。两个算法都取得了非常好的效果。这次大会华大基因的同学们做了报告,台下一片膜拜。他们也因为这次的工作,获得了5k体验的最佳工作奖。   这次会上见到华大基因的陈钢博士真人,聊了不少。希望有机会业务合作。   顺便提一下,自从华大基因收购了CG,美国的竞争对手就开始恐惧。如果明年华大上市成功,这个领域就会热起来,像当年的新浪。华大加油! AmyPI   这次开发者大赛前20的产品有专门的展台,我跑去逛了一圈,很多东西都很有趣。其中“AmyPI市场”引起了我的兴趣,这是一个帮助云服务管理API架构,并提供计量计费服务的独特产品。这种有深度的东西出来了,说明阿里云的生态系统真的建立起来了。我就和展台上的负责人聊了一段。   说起来还挺有趣,我第一次和AmyPI负责人聊,忘记交换名片了。后来又路过他们展台,就把自己的名片递过去。当时看那位负责人在忙着和别人交流,就没打搅他。   过一会儿他打电话找到我,问有什么事,我很奇怪,“我们刚才聊了好久,你不记得了?”   人家笑了,“你一定是和我弟弟聊的……”   汗,原来是双胞胎一起创业,真的分不出来谁是谁。   最终AmyPI得到了云峰奖,银杏谷资本还现场签约投资他们,恭喜恭喜!希望这个产品能不断发展。希望出现更多AmyPI这种有技术含量的、专注而深入的专业级服务。

天河这种大型机还有存在的必要吗?

  在知乎上回答了一个问题“有了分布式计算平台后,像天河这种大型机还有存在的必要吗?”   超级计算机其实也是分布式集群架构,和普通集群很类似,编程模型都是MPI、Mapreduce那一套。稍有不同的是:   1.超级计算机用infiniband背板提高各节点间的网络IO,常规分布式集群一般都是千兆、万兆网卡。   2.超级计算机一般会配高档的磁盘阵列,而GFS+Mapreduce方案底层基于挂在各节点上的普通硬盘。   2.超级计算机会使用更先进的CPU和GPU,更多内存。   3.由于发热强劲,很多超级计算机采用水冷。   从这些细节可以看出:   1.超级计算机更适合计算密集型作业,如果用MPI算核物理、天体物理、蛋白质折叠、渲染《阿凡达》、求解普通PC上需要几千万年的迭代方程,那么就应该用超级计算机。反过来,分布式集群Mapreduce适合IO密集型的作业,加上成本低,可以把集群规模搞得很大,因此最适合扫描过滤海量的数据,例如互联网行业的经典应用:为搜索引擎创建全网Web页面的索引。   2.超级计算机造价更昂贵,维护成本也高,甚至每小时电费就得上万元。记得我以前做蛋白质搜索引擎的时候,在某台国内最大的超级计算机之一跑过一个80分钟的job,花了老板5000多块上机费(因为我们有项目合作,人家已经给我们打了很低的折扣了)。不过这些作业用MapReduce在普通分布式集群上跑,跑了好几天。   云计算是建立在廉价分布式硬件+牛B的软件系统设计上,在商业上越来越成功。所以正在抢占传统超级计算机的用户市场。例如阿里云刚刚和国内的动画公司合作渲染出来的《昆塔》,计算量是阿凡达的四倍。不过就我所知,各大传统超算中心其实依然是排队、忙不过来的。随着国内经济的升级,很多造船、石油、材料、生物、天体物理、军事领域的计算需求都很强烈,这一类计算密集型任务,性能和时间往往比成本更重要。

阿里技术嘉年华要举行了,我们的主题报告和Workshop

  2013阿里技术嘉年华将于7月13-14日在杭州举行。好多牛人带来技术分享。这里面和我工作直接相关的内容有下面两个:   13日上午,ODPS团队的高级产品经理 水易(汤子楠)会在大数据主题论坛上做一个报告,介绍ODPS的产品设计思路、主要功能和基础技术架构。开放数据处理服务 (Open Data Processing Service, ODPS) 是基于飞天平台构建的离线大数据存储与分析系统,以云计算服务的方式实现海量数据的存储、分享与离线处理,在数据仓库构建、海量数据统计、数据挖掘、数据商业智能等应用领域有着广阔的应用前景。   14日下午,算法团队的高级专家 品数(杨旭)会在Tech Loft主持一个workshop,讨论分布式数据分析算法。MapReduce模式在很多算法上已无法达到高效,如何扩展模式并使之与MapReduce统一调度?如何高效实现大数据算法? 怎样定义数据结构? 如何保证开发测试的质量? 算法研发如何与业务紧密结合? 希望更多人参与分享和讨论。   更多报告内容请参考这里,期待与大家交流。

KDD 2012第一天

  我现在在KDD 2012大会现场。由于今年的主题是Mining the Big Data,有趣的报告太多了。我主要在穿插着听以下三个Track:   1.关于海量数据处理,基于MapReduce、Stream的数据挖掘算法实现的BigMine   2.关于生物信息数据挖掘的BIOKDD,以及与健康信息有关的HI-KDD   3.Yahoo专家的特邀报告Data mining in streams   见到很多朋友,如果你也在现场请联系我或者微博上@我,大家多交流。

流水帐

  前天晚上紧急飞到杭州来,参加昨天早上的项目会议。此前邮件里,各方面虽然都推荐我是这项目最合适的pd,但又都认为工作将会很困难。会上,我把技术和业务瓶颈都说清楚了,等老大们斟酌。很多技术困难说到底还是商务问题。3个公司5个团队,需要大量协调。   好一阵没写代码。这两天为给ODPS写用户文档,用MapReduce写个Join的例子。也算活动活动生锈的大脑部件。   编程这手艺放下就会生疏。周围好多人都说要一直写代码到退休。而离开编程的人,受到各种鄙视,尤其是他自己的鄙视。   昨晚11点下班的时候,跑到三层去看nh老大。他忙得都顾不上理我了。公司里一大坨人都在电脑上看欧洲杯(CNTV网站的底层租用阿里云的各项云服务,例如CDN,欧洲杯期间视频流量爆发性增长),nh这几天需要连续通宵值守。   今天中午偏头痛又犯了,回宾馆睡了会儿,下午支撑着过来,终于调通了程序。还挺有成就感的,头居然也不疼了。刚订了飞机票,明天可以飞回北京了。