Tag Archives: 数据仓库

谈谈ODPS商业化(六):ODPS小伙伴SLS和DPC

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……

  在典型的大数据解决方案里,除了以ODPS这样的离线分布式计算引擎为核心,周边还需要日志收集、开发IDE、工作流调度、数据质量监控、BI报表等等一系列配套机制。因此ODPS用户往往还会对SLS和DPC等服务感兴趣。

  先说SLS(简单日志服务),这是阿里云提供的针对日志收集、存储、查询和分析的云服务。用户只需简单地配置日志产生的位置和格式等信息就能实时查询海量日志。用户也可以把SLS日志归档保存到ODPS中做更多数据分析。

  简单来说,SLS提供一个名为Logtail的客户端,把它部署到需要监控的机器上(阿里云云主机默认安装),配置好以后,Logtail会定时把本地的日志文件(例如Web Sever的access_log或DB的bin-log)上传到后端的RESTful API,然后用户就可以在后台利用SLS对日志进行简单的实时过滤和处理。CNZZ就基于SLS进行全网日志数据的收集。更多SLS细节请参考官方主页

  SLS在ODPS里面有一个project名叫sls_log_archive,用户打开推送功能后,SLS会定时把数据推到特定名字的表里(Project+Category),用户可以再执行一个简单的SQL把数据拖到自己的Project里。可以参考这篇用户文档。然后用户就可以写SQL把数据导入自己的Project,下面是个简单的SQL例子,第一句是在自己project创建一个表,第二句是创建相应时间段的partition,第三句是导入数据

  CREATE TABLE mylog LIKE sls_log_archive.XXXXXXX;

  ALTER TABLE mylog ADD PARTITION(__partition_time__=’2014_06_24_12_00′);

  INSERT OVERWRITE TABLE mylog PARTITION (__partition_time__=’2014_06_24_12_00′)
SELECT __source__, __time__, __topic__, _extract_others_ FROM sls_log_archive.XXXXXXX where
__partition_time__=’2014_06_24_12_00′;

  日志数据导入ODPS,就可以利用它的强大能力深入分析SLS收集上来的日志。这里有一篇BLOG很值得推荐

  接下来介绍DPC,它是基于ODPS的DW/BI的工具解决方案。DPC提供全链路的易于上手的数据处理工具,主要提供如下四种能力:
  1.把各种数据源的数据(例如RDS)拖拽到ODPS
  2.提供IDE开发界面和SQL代码管理能力
  3.任务调度功能
  4.通过拖拽和可视化的方式进行数据分析,并通过BI报表进行数据可视化展现。
  有了DPC,可以大大降低ODPS用户在数据仓库和商业智能项目上的实施成本,加快实施进度。天弘基金、高德地图的数据团队基于DPC完成他们的大数据处理需求。 更多DPC细节可以参考官方主页

  有了ODPS+SLS+DPC小伙伴,就可以支持典型的大数据工作场景了:日志收集、数据开发和定时生产。还有更多ODPS小伙伴正在开放的路上,例如流计算和实时查询,请大家关注阿里云网站。

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……

各个公司的数据产品,“指数”里的“中国好声音”

  最近在玩各互联网公司的公开数据产品。例如淘宝指数百度指数新浪微博指数

  前两天和BD、业务架构师一起见房地产行业的客户,对方一上来气场很强,真是高帅富。我随手用这几个“指数”查了查,问:“你们的潜在客户群里,男性占90%以上,30~35岁的占70%以上,消费层级很高,客户的价值实在太赞了。不过,除了你们已经有项目的城市,为什么海南有那么多潜在客户?你们在那里布局拿地了吗?”他们很惊奇,赶紧挤到电脑前来看。

  “指数”产品们虽然很初级,但有了这种对数据威力的展示,就能让很多传统行业用户明白转移到云计算技术、建立数据仓库并最终参与数据集市交易的重要性。

  下面几张图是今天分别在百度指数、新浪微博指数和淘宝指数上查询“中国好声音”得到的基础数据曲线。你从中看到了什么?


“中国好声音”@百度指数


“中国好声音”@新浪微博指数


“中国好声音”@淘宝指数

近几年内,国内公有云会怎么发展?

  我在知乎上回答了一个问题:近几年内,云计算会有怎么的发展?

     只说说公有云。对私有云不了解。

     1.最近云计算领域的关键词是“落地”。国内共有云基础设施将逐步成熟,领先的公司有望收支平衡。随着价格战的展开,泡沫落潮,没穿内裤的游泳者会逐步出局。

     2.地方政府推动的所谓云计算项目,会找公有云商业公司合作。前者擅长出钱、征地、修机房、买机器,并拉上来一些当地客户。而拥有技术和运营能力的商业公司,负责提供品牌、开发软件、部署系统、运维。

     3.越来越多的天使投资人和风险投资人会要求互联网创业团队在创业初期租用公有云。这比一开始就买很多硬件和带宽放在那里日日夜夜产生折旧成本,风险更小。支出成本与业务量之间线性相关,一旦业务转型包袱比较轻,这更符合财务投资的原则。

     4.Saas类的产品会再次迎来机会。此前的一些RCM、ERP、SCM软件的Saas化尝试不算特别成功,原因是业务模式只改了一半:客户这边变成了按需租用,但支出成本这边却仍然不变, 需要自己建机房买机器,这导致现金流循环的周期太长。有了底层Iaas和Paas供应商,Saas从业者可以按需租用,节省运维费用,成本就降下来了。

     5.移动智能手机的进展会促进云计算的发展。

     6.电子商务从业者方面,用数据仓库、数据挖掘技术支撑运营,会逐渐变成默认标配。中小电商不会投资独立设施,会租用云计算。

     7.弹性计算、云存储、大数据处理,这三大主题陆续都会变成红海。业者需要寻找新的技术和业务模式的创新。

     8 传统意义上的高性能计算的非互联网客户,例如物理、天文、地质、材料,生化等计算的市场,会逐渐往云计算平台上转,但这是一个漫长的过程。曙光6000和天河1号这样的超算中心将来还是会活的很滋润。两边各自擅长于不同的市场(IO密集型和计算密集型)。

我将参加easyhadoop聚会,并做一个分享讲座

  我将在第三次easyhadoop聚会上做一个分享讲座,题目是《阿里云ODPS:云端数据仓库服务》。

  ODPS目前尚处在邀请试用阶段。金融、零售、现代制造业和电子商务企业的BI团队租用ODPS服务进行海量数据的分析和挖掘,。这次我将简单分享一下产品的特点和客户应用案例。期待与你交流。

  地点:北京市海淀区新街口外北京师范大学教7楼302教室。

  时间:2012年05月19日本周六13:30 – 17:00。