Monthly Archives: September 2014

谈谈ODPS商业化(六):ODPS小伙伴SLS和DPC

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……

  在典型的大数据解决方案里,除了以ODPS这样的离线分布式计算引擎为核心,周边还需要日志收集、开发IDE、工作流调度、数据质量监控、BI报表等等一系列配套机制。因此ODPS用户往往还会对SLS和DPC等服务感兴趣。

  先说SLS(简单日志服务),这是阿里云提供的针对日志收集、存储、查询和分析的云服务。用户只需简单地配置日志产生的位置和格式等信息就能实时查询海量日志。用户也可以把SLS日志归档保存到ODPS中做更多数据分析。

  简单来说,SLS提供一个名为Logtail的客户端,把它部署到需要监控的机器上(阿里云云主机默认安装),配置好以后,Logtail会定时把本地的日志文件(例如Web Sever的access_log或DB的bin-log)上传到后端的RESTful API,然后用户就可以在后台利用SLS对日志进行简单的实时过滤和处理。CNZZ就基于SLS进行全网日志数据的收集。更多SLS细节请参考官方主页

  SLS在ODPS里面有一个project名叫sls_log_archive,用户打开推送功能后,SLS会定时把数据推到特定名字的表里(Project+Category),用户可以再执行一个简单的SQL把数据拖到自己的Project里。可以参考这篇用户文档。然后用户就可以写SQL把数据导入自己的Project,下面是个简单的SQL例子,第一句是在自己project创建一个表,第二句是创建相应时间段的partition,第三句是导入数据

  CREATE TABLE mylog LIKE sls_log_archive.XXXXXXX;

  ALTER TABLE mylog ADD PARTITION(__partition_time__=’2014_06_24_12_00′);

  INSERT OVERWRITE TABLE mylog PARTITION (__partition_time__=’2014_06_24_12_00′)
SELECT __source__, __time__, __topic__, _extract_others_ FROM sls_log_archive.XXXXXXX where
__partition_time__=’2014_06_24_12_00′;

  日志数据导入ODPS,就可以利用它的强大能力深入分析SLS收集上来的日志。这里有一篇BLOG很值得推荐

  接下来介绍DPC,它是基于ODPS的DW/BI的工具解决方案。DPC提供全链路的易于上手的数据处理工具,主要提供如下四种能力:
  1.把各种数据源的数据(例如RDS)拖拽到ODPS
  2.提供IDE开发界面和SQL代码管理能力
  3.任务调度功能
  4.通过拖拽和可视化的方式进行数据分析,并通过BI报表进行数据可视化展现。
  有了DPC,可以大大降低ODPS用户在数据仓库和商业智能项目上的实施成本,加快实施进度。天弘基金、高德地图的数据团队基于DPC完成他们的大数据处理需求。 更多DPC细节可以参考官方主页

  有了ODPS+SLS+DPC小伙伴,就可以支持典型的大数据工作场景了:日志收集、数据开发和定时生产。还有更多ODPS小伙伴正在开放的路上,例如流计算和实时查询,请大家关注阿里云网站。

  这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……

怎么看待互联网公司进入医疗健康业?

  先看个好玩的。下面播放的这个名为Big genomic data on Google Cloud Platform的视频(在youtube上,得翻墙)简单介绍了如何通过Google的基础设施,例如Genomics API、BigQuery和 GAE Mapreduce ,在云端处理基因大数据。那个分析基因的BigQuery SQL代码例子你看懂了吗?

  知因上有个问题:昨日爆出腾讯7000万美元投资中国最大的医疗健康互联网公司丁香园;雅虎将于今年10月正式启动个体基因数据库“HealthData Lab”项目;不久前,Google X部门启动 “基线”研究项目绘制健康人体图谱。你怎么看待互联网公司进入医疗健康业?他们在未来的医疗健康行业会起到怎样的作用?随着互联网公司的涉足,未来医疗健康行业又将如何发展呢?(原文链接)我做了如下回答:

  算是和这个问题有点的关系的人。此前有好多年在科研机构里搞生物信息学。然后跳到互联网公司里做云计算。现在正准备跳出来创业,搞健康大数据和云计算。

  感觉最大的区别是人的思维方式。互联网是竞争和变化非常激烈的行业,追求高效、专注、开放,有很多应对资本和人才流动的游戏规则。而生物制药这边,套路还有点传统。

  举个例子,互联网出来的人创业,首先考虑的是怎么把自己做薄,把能放弃的都外包出去,专注于自己的最大优势。而传统健康领域出身的创业团队搞某件事,例如基因测序,思考方式似乎仍然比较宏大,停留在再造另外1个或者0.5个华大基因:测序仪,服务器,算法研发,数据分析,网络营销,地面推广,健康诊断,个性化医疗……

  再举个例子,我没看到基因测序行业特别担心一线技术人员流失和跳槽,至少他们没有采取很明显的激励措施:提高工资、赠送期权、鼓励和参与员工进行内外部再次创业等等。相关专业的毕业生,例如生物信息,平均士气并不高,找工作的时候对未来普遍很迷茫。

  未来会怎样?我不知道,至少目前阶段,互联网出身的人还处于劣势,他们不了解医药健康行业的特点和细节,缺少体系内的人脉和资源。但这些鲶鱼至少激发了整个行业的思考。让我们一起加油,看看两三年以后会变成什么样?

  顺便发点小广告,我们在招人:http://knowgene.com/article/136

健康大数据创业团队诚邀您的加入

  我们是一个健康大数据创业团队,已经拿到百万美元天使投资。创始成员包括前阿里巴巴数据科学家、前阿里云数据产品经理,核心团队长期工作于阿里、百度等业界知名公司。我们怀揣用数据技术推动健康领域革新进步的梦想,期待您与我们结伴前行。
  我们在北京。
  如果你是一个Geek,和我们一样渴望用互联网和数据技术改善自己和他人的生活质量,请无视下面的职位描述,直接把简历砸向 igenedock@gmail.com ,我们会在第一时间跟你联系。

系统架构师
我们希望您擅长根据业务需求构建和优化可扩展的计算系统,对分布式存储/分布式计算/并行计算系统架构如数家珍,并热衷跟进前沿计算技术发展。
工作职责:设计系统架构,带领团队实现面向海量数据的可扩展计算系统。
要求:
  1. 深入了解Mesos/Yarn或其他分布式资源管理系统
  2. 熟悉分布式计算领域作业调度、元数据管理、数据质量监控等方面
  3. 熟悉Hadoop生态环境,有系统级开发经验
  4. 优秀的沟通能力和团队协调能力
其他
  1. 熟悉亚马逊AWS或阿里云等公有云服务优先
  2. 熟悉Docker或其他虚拟化容器技术优先
  3. 熟悉Spark/MPI等计算系统优先
  4. 参与过开源项目优先
  5. 有github和技术博客展示自己以往技术沉淀者优先

前端工程师
我们希望你热衷于前端技术,对浏览器加载方式理解深刻,渴望实现多样流畅的用户体验,
工作职责:设计并开发web前端页面,完善报表展现、数据操作等功能,并能使用缓存和按需加载方式优化页面性能。
任职要求:
  1. 熟悉W3C标准,熟悉MVC模式
  2. 熟练掌握HTML/JavaScripts/CSS/jQuery等前端技术
  3. 对用户交互设计有自己的理解
  4. 良好的沟通能力和合作精神
  5. 熟练使用git工具进行代码管理,熟悉基本的软件工程方法论和工具,例如单元测试、版本管理、Bug管理等
其他:
  1. 熟悉主流Web框架优先
  2. 有数据可视化经验优先
  3. 参与过开源项目优先
  4. 有github和技术博客展示自己以往技术沉淀者优先

后端系统工程师
我们希望你对业务系统开发有丰富经验,擅长设计简洁易用的RESTful API,热衷于提高系统性能和可扩展性。
工作职责:开发后端服务,包括权限控制、元数据管理、任务调度等功能
任职要求:
  1. 熟悉Python/Java编程
  2. 熟悉MongoDB,Redis,memcached等存储技术
  3. 对后端业务流程搭建有丰富经验
  4. 了解Nginx配置,使用过主流Web开发框架
  5. 熟练使用git工具进行代码管理,熟悉基本软件工程方法论和工具,例如单元测试、版本管理、Bug管理等
  6. 良好的沟通能力和团队合作精神
  其他:
  1. 了解亚马逊AWS或阿里云等公有云服务者优先
  2. 有Hadoop开发经验者优先
  3. 参与过开源项目优先
  4. 有github和技术博客展示自己以往技术沉淀者优先

数据工程师
我们希望你热爱数据和算法,熟悉计算任务的开发和调度过程,对分布式数据存储和计算流程的优化实现有自己的心得。
工作职责:开发ETL过程,优化存储方案,设计并实现分布式计算任务,搭建数据处理流程。
要求:
  1. 熟练掌握Java/Python/C++至少一门编程语言
  2. 熟悉Shell Script和Linux操作
  3. 熟悉常用数据结构和算法实现
  4. 了解分布式系统构成,有Hadoop开发经验
  5. 优秀的沟通能力和合作精神
其他
  1. 有生物信息学/机器学习背景优先
  2. 有Spark/MPI等计算系统开发经验优先
  3. 参与过开源项目优先
  4. 有github和技术博客展示自己以往技术沉淀者优先

我们提供:
  1. 有竞争力的薪资和员工福利
  2. 员工期权激励
  3. 宽松自由的工作环境、工作午餐和无限零食

感兴趣请尽快发简历到 igenedock@gmail.com ,如果有个人作品和项目,也可以一并附上。