谈谈ODPS商业化（三）：阿里金融的业务

　　这篇BLOG是ODPS商业化一系列文章之一，更多请点击这里……

　　阿里金融是ODPS第一个用户，业务发展很快，备受关注。网上能找到很多报道，例如以前一篇BLOG引用过《一笔B2B贷款的旅行》。近期又披露了A-GDS系统和水文模型，大家可以自己搜索（作为参与者，终于能把这些曾经保密的词写在公开渠道，真爽）。通过这些已经能大体了解到阿里金融如何利用海量数据挖掘信息，并据此确定信用风险和额度并发放贷款。所以这篇BLOG会短一些。

　　阿里金融团队里，程序员和数据分析师占绝大多数。这些同学都在ODPS上忙什么？

　　金融的核心是对风险进行量化评估。举个例子，发信用卡给某人，必须先拿到对方的信息，根据各种指标进行打分，估算出这个人赖账的概率，评估期望收益减去成本之后的盈利空间，并确定授信额度。通过特征计算信用额度是一门专业的金融建模技术，称为“信用评分卡”。大家可以到豆瓣上搜一些经典教科书。“信用评分卡”一般是由一系列的特征选择、回归统计和评价算法组成。

　　传统金融行业能获得一个人的信息是有限的，几页纸的表格资料就填写好了：生日、性别、教育、婚姻、城市、单位、职称、收入、财产、负债、健康……所以传统的信用评分卡模型，输入训练集的特征矩阵也就上百列。同样的方法拿到互联网企业来用，嗯，我们能收集你这个人的一切数据：用iPhone还是Android，接收包裹的地址是高档小区还是地下室，在天猫旗舰店买首饰和包包有多腐败……如果你是淘宝或B2B卖家，支付宝里赚到的每一笔现金流都可以反映你的还债能力，甚至会测评你对假设情景的掩饰和撒谎程度。于是信用评分卡模型就必须能处理好几百万列的特征矩阵。而且，疯狂的数据科学家们想到，每月、每周甚至每天的授信额度都应该动态调整，就像江河里的水位一样随季节涨落，例如双11之前，根据往年的数据预测，模型会自动给电商卖家逐步调高额度，而春节之前又降到最低（这也是“水文”模型名字的来历）。

　　业务需求如此，海量数据必须要存，要过滤，要计算，要建模，包括调度和监控、授权和审计、数据质量控制、元数据管理等重要问题都要有解决方案。于是神说，要有ODPS，要有水文模型，要有A-GDS。

　　阿里金融的生产流程都在晚上跑，是典型的数仓场景：把上游数据定时拖进来，ETL清洗整理后进入数据仓库，然后针对上层业务提供垂直的数据集市。每天离线作业完成之后，数据就会被灌入OTS和RDS这类在线服务，为日常业务提供支持。而在白天，分析师们使用SQL进行数据探查，写程序或调用统计机器学习的工具包进行数据挖掘和建模，并把开发测试好的模型发布到线上生产。

　　阿里金融在ODPS上每天处理30PB数据，800亿个信息项，运算100多个数据模型。ODPS上的信用评分卡模型（以逻辑回归为核心的十几个算法组成的建模流程）一般会跑上百万维特征，上亿行样本的训练集。有了强大平台的支持，阿里金融就可以给没有资产可抵押的小微企业发放贷款，每一笔贷款成本是传统银行的1/1000，且坏账率非常低。

　　写到结尾，我终于可以像购物节目里面的亢奋主持人一样说点煽情的：“ODPS可以120%的满足你的所有梦想，现在打开电脑，登陆www.aliyun.com，展开你的神奇大数据之旅吧！”

　　顺便提一下，其他金融类业务也都在用ODPS了。余额宝前两天在微博上发了一组好玩的数据统计，“广东、山东、河南男人们的私房钱最多”。

　　这篇BLOG是ODPS商业化一系列文章之一，更多请点击这里……

4 thoughts on “谈谈ODPS商业化（三）：阿里金融的业务”

Pingback: 谈谈ODPS商业化（一） | joyfire 王乐珩

AlsoTang June 6, 2015 at 12:47 am

咦竟然没有留言

Reply ↓

Clark Jiang July 12, 2016 at 8:36 am

请问一下芝麻信用作为蚂蚁金服的一部分，也是在阿里云上运行的，但是作为征信机构不是应该保持独立（数据上的独立也是一部分）么？

Reply ↓

Clark Jiang July 12, 2016 at 8:37 am

请问一下芝麻信用作为蚂蚁金服的一部分，也是在阿里云上运行的，但是作为征信机构不是应该保持独立（数据上的独立也是一部分）么？

Reply ↓

joyfire 王乐珩地雷

有事多Google，没事少上网

谈谈ODPS商业化（三）：阿里金融的业务

4 thoughts on “谈谈ODPS商业化（三）：阿里金融的业务”

Leave a Reply Cancel reply