这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……
阿里金融是ODPS第一个用户,业务发展很快,备受关注。网上能找到很多报道,例如以前一篇BLOG引用过《 一笔B2B贷款的旅行》。近期又披露了A-GDS系统和水文模型,大家可以自己搜索(作为参与者,终于能把这些曾经保密的词写在公开渠道,真爽)。通过这些已经能大体了解到阿里金融如何利用海量数据挖掘信息,并据此确定信用风险和额度并发放贷款。所以这篇BLOG会短一些。
阿里金融团队里,程序员和数据分析师占绝大多数。这些同学都在ODPS上忙什么?
金融的核心是对风险进行量化评估。举个例子,发信用卡给某人,必须先拿到对方的信息,根据各种指标进行打分,估算出这个人赖账的概率,评估期望收益减去成本之后的盈利空间,并确定授信额度。通过特征计算信用额度是一门专业的金融建模技术,称为“信用评分卡”。大家可以到豆瓣上搜一些经典教科书。“信用评分卡”一般是由一系列的特征选择、回归统计和评价算法组成。
传统金融行业能获得一个人的信息是有限的,几页纸的表格资料就填写好了:生日、性别、教育、婚姻、城市、单位、职称、收入、财产、负债、健康……所以传统的信用评分卡模型,输入训练集的特征矩阵也就上百列。同样的方法拿到互联网企业来用,嗯,我们能收集你这个人的一切数据:用iPhone还是Android,接收包裹的地址是高档小区还是地下室,在天猫旗舰店买首饰和包包有多腐败……如果你是淘宝或B2B卖家,支付宝里赚到的每一笔现金流都可以反映你的还债能力,甚至会测评你对假设情景的掩饰和撒谎程度。于是信用评分卡模型就必须能处理好几百万列的特征矩阵。而且,疯狂的数据科学家们想到,每月、每周甚至每天的授信额度都应该动态调整,就像江河里的水位一样随季节涨落,例如双11之前,根据往年的数据预测,模型会自动给电商卖家逐步调高额度,而春节之前又降到最低(这也是“水文”模型名字的来历)。
业务需求如此,海量数据必须要存,要过滤,要计算,要建模,包括调度和监控、授权和审计、数据质量控制、元数据管理等重要问题都要有解决方案。于是神说,要有ODPS,要有水文模型,要有A-GDS。
阿里金融的生产流程都在晚上跑,是典型的数仓场景:把上游数据定时拖进来,ETL清洗整理后进入数据仓库,然后针对上层业务提供垂直的数据集市。每天离线作业完成之后,数据就会被灌入OTS和RDS这类在线服务,为日常业务提供支持。而在白天,分析师们使用SQL进行数据探查,写程序或调用统计机器学习的工具包进行数据挖掘和建模,并把开发测试好的模型发布到线上生产。
阿里金融在ODPS上每天处理30PB数据,800亿个信息项,运算100多个数据模型。ODPS上的信用评分卡模型(以逻辑回归为核心的十几个算法组成的建模流程)一般会跑上百万维特征,上亿行样本的训练集。有了强大平台的支持,阿里金融就可以给没有资产可抵押的小微企业发放贷款,每一笔贷款成本是传统银行的1/1000,且坏账率非常低。
写到结尾,我终于可以像购物节目里面的亢奋主持人一样说点煽情的:“ODPS可以120%的满足你的所有梦想,现在打开电脑,登陆www.aliyun.com,展开你的神奇大数据之旅吧!”
顺便提一下,其他金融类业务也都在用ODPS了。余额宝前两天在微博上发了一组好玩的数据统计,“广东、山东、河南男人们的私房钱最多”。
这篇BLOG是ODPS商业化一系列文章之一,更多请点击这里……