大数据的商业模式,目前能看清楚的有两种:互联网小微金融(参考这里)和精准广告投放(参考这里)。这两项业务的建模团队正是分布式算法产品的主要客户。
尽管拥有相同的数据和平台,金融团队和广告团队的思路却有差异。例如同样使用逻辑回归,金融BI偏向传统统计学,应用银行业经典的“评分卡”建模,强调严谨的假设验证和细致的特征工程;而广告BI倾向于机器学习方式,把上亿行样本的上万甚至上亿列特征一口气扔进建模算法里面去自动迭代训练,更粗暴,更敏捷。
技术路线常常源于业务需求。在广告营销领域,通过A/B Test获取反馈的成本较低,模型的更新节奏也比较快,业务方也不关心模型内部细节。而金融风险模型直接作用于真金白银,信息循环沉淀的周期又长达数月,因此建模思路偏保守,模型上线之前风险委员会的review很细致,往往得把所涉及到的每一列特征都讲清楚。
算法平台团队对此感触很深。前一阵,两个BI团队的数据科学家终于凑到一起开会。交锋很有意思,例如把模型当作白盒还是黑盒来用,再如特征工程中的很多人工操作能否用自动化蛮力替代。
会上我也说了几句。必须重新审视建模流程的各个环节,也许一些招数其实源于小数据时代计算资源有限导致的妥协。今天我们有了上万节点处理上P数据能力的平台,建模必然面临创新。