Advertisement

金融风控项目心得

阅读量:

近段时间与弟弟共同参与了多个学院级培训机构的金融风控学习活动,并从中获得了不少实战经验。觉得非常值得向大家推荐这种寓学于乐的学习方式。为了更好地总结和分享这些心得经验,在此将近期的学习成果做一个初步梳理和介绍。

先来说说什么是金融风控

在涉及电商、广告等多个场景的风险控制方面,金融风控与之存在显著差异。其中 money security 是其核心关注点之一,并直接关系到公司收入水平以及公司的生存基础。

假设一家每月放款额达100亿元的企业违约率上浮一个百分点(即增加一个基点),其造成的损失可能不会让人感到意外吧?相反地,在采取风控措施(如风险管理策略)减少该公司的违约概率后,则能够预期员工收入会有相应的提升。

目前金融领域有:传统金融、互联网金融和消费金融。

这三个金融场景的区域是什么啊?

具体来说说传统的常规金融机构通常被称为中国的四大主要金融机构;其中包括以下几种类型:银行、信托公司、保险公司以及证券公司。

其中银行主要承担存贷款业务以及理财业务;信托机构则主要进行投资活动和资金融通;证券公司则主要涉及企业上市进程以及与股票交易相关的各类业务;保险公司的核心功能则是提供人寿保障服务等

互联网金融则是基于互联网技术促进资金流通的金融活动范畴,在这一过程中具体涵盖了多种类型的企业与机构。
其中主要包含有专注于财富管理的专业型金融机构、提供借贷服务的网络借贷平台以及开展支付业务的相关机构。

由于互联网金融在过去并未获得过官方的正规金融牌照,因此一些如P2P理财平台或借贷机构这类的公司非常活跃,在过去频繁发生坏账事件。

消费金融主要指的是由牌照持有者经营的非银行金融机构中的一种服务模式。例如包括像"花呗"和"白条"等常见的产品都属于这一类别。在申请时你可以通过提供个人信用信息作为担保并支付相应的利息费用来进行分期付款的消费方式。

在消费金融领域中,则更倾向于通过用户的个人信用状况来评估其借款资格与能力,在实践中较为常见的包括芝麻信用分这样的评估指标。具体而言,在风险控制体系下会综合考量用户的还款能力和消费习惯等多方面因素来确定具体的透支额度。

可以看到,在上面三种金融机构都可以通过风控技术做到两点:

方面能够降低由于违约等多种因素导致的坏账;方面能够依靠放贷带动社会消费品的销售并带来显著的增长

风控技术这么厉害的吗?它到底是怎么做到的?

先说说它的缺点,这个比较明显

首先,风险具有滞后性。

用户借款后通常需要一个月左右的时间才能得知是否会违约;然而,在这期间确实存在相当一部分用户可能需要半年甚至更久的时间才会违约。

通常来说,在线获得客户成本较高且流程较为繁琐,并非易事。因此为了提升转化率,在授信审批、申请提交以及审核决策这几个关键环节中实施实时操作。

例如,在线提交相关申请资料时,在短时间内(几分钟内),系统会根据用户的各项历史数据评估其信用状况。这种评估可能会因信用评分过低而被拒绝(即用户无法获得贷款),或者若审核通过,则会提供初步贷款额度。

其次,风控的业务性复杂

在风控领域中

此外,在实际应用中可以选择一定比例的正负样本数据进行训练;由于这些数据的比例可能存在失衡问题,并且违约的情况通常仅限于少数群体。如果不采取有效措施,则可能导致金融机构遭受严重损害甚至破产。

风控同样服务于业务流程,在特征、评分等方面都必须能够良好契合用户需求,并且必须具备较高的可解释性。

总结一下

风控最基本的方法就是通过用户的各项数据信息来判定这位客户是否为'信用良好的客户'或'信用风险客户'。

到后面有了根据一个用户的信息,判断该不该给他借钱,借多少合适?

同时,在处理用户的借贷记录时,需要评估用户的还款能力,并决定是否有必要采取催收措施。

什么是风控?

上面我们提到的会不会还钱,该不该借钱,要不要催收都是二分类问题。

为了实现风控目的, 风控的主要手段是依赖监督算法搭建违约概率预测模型完成对违约情况的分类判断, 同时也会采用无监督学习以及深度学习算法来辅助工作

评分卡模型本质上是旨在利用多种个人信息特征作为输入数据,并输出与其还款的可能性水平。

概率越大,评分越高,越容易还钱。概率越小,评分越低,越容易跑路。

典型例子就是芝麻信用分。

风控的整体流程

1. 数据采集

一般的数据采集都包括免费数据和付费数据,风控也是。

免费数据构成:运营商提供的资源、开源平台 openly available 的资源以及网站公开发布的数据等获取方便的资源。当然也可以通过网络爬虫进行采集。

付费数据包括:黑名单数据、征信数据、互联网公司的数据等等

2. 反欺诈

反欺诈主要包括反欺诈规则和反欺诈模型。

反欺诈规则对应的是,在借贷开始前系统将通过准入规则进行初步筛选,并通过PreA模型等实现针对性地预过滤。

例如针对抵押借贷、白户借贷等有相应的的数据分析方法和过滤规则。

而反欺诈系统基于用户的属性特征和欺诈标签被构建

此外还有基于深度学习、社交网络算法以及在线学习等技术作为辅助手段来提升反欺诈模型的准确率

然而由于欺诈标签难以获得而导致的问题

3. 策略挖掘

制定策略时,基于一系列分析与挖掘手段,获取各个字段及不同区间内的各项指标数据,并筛选出最优的分段区间,最终对应到相应用户的信用评分系统中

在比较芝麻信用分数的基础上来看,在了解用户的信用评分通常位于某个区间内的情况下,则可知当用户的信用评分处于较高的区间时,在这种情况下系统通常会直接给予通过

策略挖掘涵盖单变量分析与关键指标计算,并包含 Vintage 指数、滚动率、迁移率等重要指标

4. 风控模型

风控模型主要包A/B/C卡模型,根据发生的时间点不同进行划分。

申请评分卡

申请评分卡

申请评分卡

申请评分卡

A卡作为贷前审核的关键模型,在其构建过程中涉及两个主要维度:一是申请人的自身属性(如通讯录信息、个人资料等),二是外部数据要素(包括历史信贷记录、运营商信息、消费轨迹、信用评分(如芝麻分)、多头借贷记录等)。在A卡模型开发中,普遍采用拒绝推断方法进行风险评估

行为评分卡

行为评分系统

行为评分系统

行为评分系统

主用到的指标不仅限于A卡中的各项指标之外,并且涵盖用户的各项行为特征(如登录操作、浏览行为、消费记录以及借贷相关的活动等)。

催收评分卡

催收评分卡

可以看到,三种模型产生y的方式不同。

A卡基于用户的最高历史逾期天数来确定变量y的值;B卡基于多期借款中最严重的逾期记录来设定变量y;C卡的具体计算方式因业务类型而异(如内催与外催等)

另外,风控模型主要是通过监督算法构建违约概率预测模型

在实际的项目中会存在样本不均衡、缺失值等各种问题,并且通常也会采用深度学习、无监督学习等方法进行辅助处理

5. 催收

催收作为一种重要的风控手段,在实际操作中主要依靠催收记录的文字描述、覆盖范围以及欺诈标记等因素来提取大量有益于模型训练的数据样本;此外,在实践中坏账客户会被系统性地标记并纳入严格的风险监控名单

催收过程中采用的主要算法与相关催收模型存在密切关联。具体而言,这些算法可能包括有监督学习和无监督学习两类。同时,在社交网络环境下构建的一些基于失联预测的模型也常被采用。

6. 部署与监控

什么是模型部署?

配置过程可以根据模型变量生成相应的评分表。通过设定相关字段区间设定对应的评分标准。最终将所有分数汇总即可得出用户的总分。

集成模型由于并非所有变量都具有可解释性,并且同时还有部分变量无法直接对应到评分体系中,在实际应用中通常会根据业务需求设定相应的参数来确定阈值,并实时计算用户的得分

那什么又是模型监控?

主要目的是评估模型的运行状态。例如,在测试过程中需要检查计算结果的准确性如何。此外还需要确认计算结果和相关变量的数据完整性如何以及确保计算结果与利率及额度策略的一致性如何。

模型分数(概率)分布是否与模型数据集偏差较大,模型拒绝率等。

在积累了一定数量的线上用户后能够对线上模型的关键指标如AUC和KS值进行评估,并将其与实际运营中的线下数据对比以全面衡量模型在实际运营中的表现

除了模型监控之外,还有很多指标可用于评估其性能。其中常见的包括一致性和稳定性评估(一致性监控)、预测性能偏差(PSI)和分类能力(PSI系数)。此外还有排序能力(排序性)和区分能力(区分度)。

说点题外话

在数据分析领域中,金融风控被视为一个更为深入的应用领域。从这个角度来看,则可将其类比为树干的一部分。

具体来说,在数据分析领域中有一些通用的技术方法如数据采集、数据清洗和特征工程等。然而这些技术的应用范围会因业务的不同而有所差异 因此相应的指标和规则也会随之发生变化

希望大家多多交流,喜欢的话可以找我沟通课程,一起学习进步。

全部评论 (0)

还没有任何评论哟~