Tag Archives: ODPS

转到CDO部门

  我随ODPS团队转到了集团CDO(首席数据官)部门,做的事情还是那些:分布式并行、海量数据分析、数据仓库、数据挖掘。

  感谢阿里云,这是一家有技术理想的公司。前几天参加年会,看到博士在台上泣不成声,有颇多感触。马云说整个公司从CEO开始全都是不善表达、西装配球鞋的工程师范。

  最近一周在杭州,每天参加各种肉身会和电话会到很晚。周末抽空去了一趟西溪湿地,景色真不错。半年多以来我到杭州出差十几趟,这是第一次有闲心出去玩。

大数据和互联网金融模式

  一直在关注大数据和金融模式创新。最近这方面的媒体报道多起来,例如前两天《21世纪经济报道》对阿里金融业务的报道。今天又找到了几篇相关报道。

  “中国金融40人论坛”的一篇课题报告《互联网金融模式研究》。其中,关于云计算尤其是Big Data技术在互联网金融模式中所起的关键作用,有这么一段描述:

     ……

     二是在信息处理方面,社交网络平台生成和传播信息,特别是对个人和机构没有义务披露的信息;搜索引擎技术对信息进行组织、排序和检索,能缓解信息超载问题,有针对性地满足信息需求;云计算服务保障海量信息高速处理能力。总的效果是,在云计算的保障下,资金供需双方信息通过社交网络揭示和传播,被搜索引擎组织和标准化,最终形成时间连续、动态变化的信息序列。由此可以给出任何资金需求者(机构)的风险定价或动态违约概率,而且成本极低。正是这种信息处理模式,使互联网金融模式替代了现在商业银行和证券公司的主要功能。

     ……

  这篇报告认为,除了“Big Data”,“移动支付”和“信息的充分发布和匹配”是互联网金融模式的另两个核心。这将使金融交易的门槛大大降低,容易解决中小企业融资、民间借贷、个人投资渠道等难题。而传统形式的银行、券商和交易所等金融中介,将受到冲击。(如果你注意看了昨天的科技新闻,支付宝开始在移动支付领域发力)。

  另外《环球企业家》刚发表了一篇《阿里金融凶猛:数据为王工厂化运作》,里面是这么写的:

     阿里巴巴不平凡的金融抱负,让一些银行感到不安

     ……

     支撑起这种工厂化运作的,是阿里小贷公司背后强大的信息系统和数据支持。

     据阿里小贷公司相关人员介绍,小微企业大量数据的运算依赖互联网的云计算技术,不仅保证其安全性和效率,也降低了运营成本,同时简化了小微企业融资的环节,可以为小微企业提供365*24的全天候金融服务,“都是基于国内小微企业数量庞大,且融资需求旺盛的特点设计的。”

     与同样以微小贷款著称的包商银行相比,截至2012年6月末,包商银行累计发放微小企业贷款20.90万笔,金额326.06亿元。同期阿里小贷公司已累计为超过13万家小微企业提供融资服务,贷款总额超260亿元,不良率为0.72%。

     ……

阿里金融业务@ODPS

  很多人都知道阿里金融是ODPS最早的客户,那么他们到底在用ODPS支撑着什么内容呢?

  这两天腾讯、阿里和平安合资组建保险公司的事情引起很大关注。新闻界对阿里金融做了大量报道,今天出版的《21世纪经济报道》里有一篇《一笔B2B贷款的旅行》,相对靠谱地介绍了每天自动跑在ODPS上的金融业务。这是一宗真正依赖大数据的买卖。

     阿里金融通过阿里巴巴、淘宝、天猫上的销售平台,对客户的历史交易流水进行分析和定量,可以反映其真实的信用状况。

     这些数据包括客户在什么时间、在哪里、同谁做生意、商品数量的变化等等。

     随后,评级系统会分析小微业主的阿里巴巴平台认证与注册信息、留下的痕迹、贸易平台表现,如登录管理、广告投放、社区行为等。接下来,还要进行客户交互行为分析,如顾客的收藏、反馈、评价情况等。所有信息最终会进入数据库进行定量,并将数值输入网络行为评分模型,从而对小微客户进行评级分层。

     在贷前阶段,除了运用自己的平台收集详细数据进行分析后评级外,近期阿里巴巴同第三方公司开始一项新的合作,通过深圳这家公司的进出口数据认证服务,掌握企业会员经过海关、税务验证的数据,这些数据将在阿里巴巴网站上自动生成。

     同时,阿里金融在小微贷款技术中还引入了心理测试系统,对小企业主进行分析,判读其性格特质,并将得到的结果进行定量,通过模型测评小企业主对假设情景的掩饰程度和撒谎程度。此外,客户评级还结合客户软信息、上下游评价等,再将行业与政策库数据作为调整因素,从而完成对小微企业客户的全方位综合评价。

     在贷款期间,阿里巴巴的系统将监控企业贷款使用是否有发生偏离的情况。

  另外,其实这条新闻里除了“三马”之外还涉及第四“马”,是招商银行的老总马蔚华。他几个月前讲话说:互联网公司将对金融行业产生的颠覆性冲击,招商银行的竞争对手不是工商银行,而是Facebook。让我们继续努力,给这些西装革履的高帅富一点颜色看看。

ODPS框架招聘研发和测试(北京)

  经过阿里内部机构调整,接下来两年会是ODPS产品的关键阶段。我们在招人,北京这边需要Service框架的研发和测试。想了解上万节点的集群如何对上P数据进行大规模分布式处理,想知道互联网海量数据和各种数据挖掘算法如何服务于商业,想亲身参与真正的Big Data业务,就联系我们吧。

  请点击后面这两个链接,查看研发工程师测试工程师的具体职位描述。

  ODPS目前最大的竞争对手其实不是Hadoop和HIVE,而是Google的Dremel和Big Query

  期待你的加入。也烦请各位朋友帮忙转发。

流水帐

  前天晚上紧急飞到杭州来,参加昨天早上的项目会议。此前邮件里,各方面虽然都推荐我是这项目最合适的pd,但又都认为工作将会很困难。会上,我把技术和业务瓶颈都说清楚了,等老大们斟酌。很多技术困难说到底还是商务问题。3个公司5个团队,需要大量协调。

  好一阵没写代码。这两天为给ODPS写用户文档,用MapReduce写个Join的例子。也算活动活动生锈的大脑部件。

  编程这手艺放下就会生疏。周围好多人都说要一直写代码到退休。而离开编程的人,受到各种鄙视,尤其是他自己的鄙视。

  昨晚11点下班的时候,跑到三层去看nh老大。他忙得都顾不上理我了。公司里一大坨人都在电脑上看欧洲杯(CNTV网站的底层租用阿里云的各项云服务,例如CDN,欧洲杯期间视频流量爆发性增长),nh这几天需要连续通宵值守。

  今天中午偏头痛又犯了,回宾馆睡了会儿,下午支撑着过来,终于调通了程序。还挺有成就感的,头居然也不疼了。刚订了飞机票,明天可以飞回北京了。

我将参加easyhadoop聚会,并做一个分享讲座

  我将在第三次easyhadoop聚会上做一个分享讲座,题目是《阿里云ODPS:云端数据仓库服务》。

  ODPS目前尚处在邀请试用阶段。金融、零售、现代制造业和电子商务企业的BI团队租用ODPS服务进行海量数据的分析和挖掘,。这次我将简单分享一下产品的特点和客户应用案例。期待与你交流。

  地点:北京市海淀区新街口外北京师范大学教7楼302教室。

  时间:2012年05月19日本周六13:30 – 17:00。

淘宝数据盛典和ODPS

  工作开始累起来,周五开电话会直到晚上22:30。周六又开了一整天的会,遗憾地错过了童小军组织的“EasyHadoop应用开发者聚会”。《伯罗奔尼撒战争史》的第二篇读后感又拖延了,罪过罪过。

  自从来到阿里云,总被问:“在干啥?”。答曰:“ODPS”。又问:“ODPS是什么,能吃吗?”……这个,其实,之前已经在博客上透露过了

  淘宝数据分析团队的同学们做了这个浅显易懂的邪恶视频,充分展示了Big Data的商业潜力。如果想要更一本正经的市场分析,可以看看麦肯锡的这份报告,以及《福布斯》杂志的这篇报道。再深入一些,想了解如何租用ODPS服务对自己的网站进行数据挖据?看子楠和文志的这篇软文

阿里云平台的介绍

  刚回到北京,下周一还要飞。最近要应付的事多,接下来我一定会保证博客的更新频率和质量。现在先随便敲两句。

  这一期《程序员》杂志的副刊发表了一系列文章,全面介绍了阿里云平台,包括弹性计算、云存储和CDN、应用托管、结构化存储和大规模离线数据分析等等一整套服务。感兴趣的同学们可以看一看。想更深入了解甚至试用,直接去www.aliyun.com吧。