金融风控项目完分析!!!
day06问题小结
对于历史逾期天数和当前逾期天数有些模糊
比如有一笔欠款9.10日要还,但是9.12号才还完,这个就是历史逾期了2天,
再比如还是9.10日要还,到今天都还没还,这个就是当前逾期天数10天。
多说一下场景下为什么要这么处理,处理的结果表示什么意思
掌握如何设计AB测试
掌握AB测试效果解读方法
知道常见信贷产品
1 信贷业务逻辑
1.1 信贷业务如何运行
市场部门/风控部门/催收部门
市场部门→获客
风控部门→筛选用户
资金回收(催收部门)
精细化运营
市场, 风控, 催收各个环节添加运营手段
1.2 信贷业务行为路径与转化漏斗
首贷、复贷概念:
第一次借款成功称为首贷
借完一次之后, 再次借款称为复贷
首贷业务逻辑
客户 一对多
申请 一对一
借款 一对多
期数 一对多
还款
在我们的数据库中,数据表大致分为两种形式,状态表和log表(日志表)
状态表
记录当前时刻,或者当天的状态,覆盖历史的状态
log表
记录从开始到现在所有的数据, 有一次操作或者更新就记录一条
漏斗转化
数据表中数据条数对应关系
2 业务报表介绍
2.1 注册表
注册表 u_user
一个手机号:对应注册表的一个id
一个手机号: 注册完成后, 对应一个user_id , 手机号和人
上表中不包含注册未完成的用户
2.2 用户信息表
用户信息(personal_info)
可以通过user_id 字段 与注册表进行关联
personal_info之外还有work_info 关于用户不同维度的信息这里在不同的表中保存
2.3 借款表
借款表 loan_list
每次申请都会有一条记录
borrower_id 可以与注册表里的user_id进行关联
2.4 放款表
loan_debt, 放款表, 也可以看做是还款计划表
这张表是一个状态表, 还款信息只会记录最新的状态
2.5 还款表
还款表记录了每一笔还款的情况
同一个订单可能会有多次还款
3 风控报表指标
市场部门的指标
各个阶段转化率
注册→申请→通过→放款(首贷)
复贷还款→申请→通过→放款(复贷)
市场部门业务报表
转化率漏斗表
各个渠道花费及效率
每个页面的留存率
风控部门的指标
通过率, 放款, 件均
逾期率:
单期产品: 整笔逾期, 金额逾期
多期产品: 整笔逾期, 金额逾期, 单期笔数,金额逾期
风控部门的业务报表
通过率表
放款统计表
规则命中率
客群分布
vintage表
催收的指标
催回率
不同催收阶段
不同催收员的催回
催收部门的业务报表
不同员工不同阶段催回情况表
接通率表, 接通时长表
运营部门
指标提升
4 风控基础报表介绍
4.1 各阶段转化率表
需要确定
统计每天注册的客户中,有多少人进行了申请, 多少人通过, 有多少人放款, 有多少人还款
涉及到多张表, 用哪张表做主表
这些表怎么合并
用到哪些表, 怎么join
用户的详细信息在personal_info表中, 用表中的user_id与主表的id相连
loan_list 借款申请表 borrower_id 对应注册表中的 id
loan_debt 放款表 list_id对应loan_list中的id
合并时时left join 如果没走到下一个阶段,则在合并表对应位置时NULL,
按照日期进行分组,分别统计出每个阶段的数量,进而每个阶段相对于前一个阶段的转化率
4.2 通过率表
统计每天申请的客户有多少人, 有多少人申请通过
user_type 新客老客, 如何区分
主表:统计申请的情况, 所以主表肯定是申请表
定义新客,老客
放过款的客户, 再来申请, 就是老客
没放过款的客户, 就是新客, 可能是第一次来, 也可能是之前的申请被拒接了
所以先计算第一次成功借款时间
当前申请时间与第一次成功放款时间比较, 得出新老客定义
4.3 放款统计表
1 获取第一次成功放款日期
2 根据这个日期判断是新客还是老客
3 合并loan_debt loan_list u_type
4.4 Vintage报表
举例来说,今天是2021年6月25日,我们取今天贷款第一期到期的客户作为观察群体,观察他们今后29天的还款情况。如果你将将今天所有贷款到期的客户作为观察群体(里面有第一期到期的,也有第二期到期的,也有第三期到期的,等等),那么这个群体里面的客户就不是位于同一层面上了。
到了下个月,7月25号,我们取7月25号贷款第一期到期的客户作为观察群体,观察他们之后29天的还款情况。这样你就可以比较6月25号的群体和7月25号的群体的还款情况差异
如果8月25号的群体还款质量有显著性降低,那么你可能会审视一下你这一个月来的营销策略是否变宽松了,或者这一个月来国家政策有什么改动等等
vintage将不同时期的数据拉平到同一时期比较,可以很直观地比较和反思不同时期公司的营销策略的效果。
每天到期的贷款的逾期情况,不是按照到期是哪天来看,按照逾期第几天来看,比较放贷的质量随时间的变化情况
4.5 催收报表
定义分案归属, 当天最后一次分案算作最终分案归属
主表: 分案表, 计算逾期天数还需要loan_debt
催收人员可能换组, 利用人名做限制
思路
① 拉宽表
数据可能是在不同的表中保存, 取数的时候, 是不是要考虑一些边界条件
考虑如何去JOIN 哪张表是主表, 如何JOIN 不会丢信息
② 在宽表的基础上算指标
加减乘除, 在算之前, 每一个指标的计算方法一定要搞清楚
③ 整理结果
5 风控建模概述
5.1 互联网金融风控体系介绍
四要素认证:银行卡持有人的姓名、身份证号、银行卡号、手机号
互联网金融风控体系主要由三大部分组成:
用户数据:用户基本信息、用户行为信息、用户授权信息、外部接入信息。
策略体系:反欺诈规则、准入规则、运营商规则、风险名单、网贷规则
机器学习模型:欺诈检测模型、准入模型、授信模型、风险定价、额度管理、流失预警、失联修复。
5.2 风控建模流程
2.1 评分卡简介
风控模型其中包含了A/B/C卡。模型可以采用相同算法,一般以逾期天数来区分正负样本,也就是目标值Y的取值(0或1)
贷前 申请评分卡 Application score card
贷中 行为评分卡 Behavior score card
贷后 催收评分卡 Collection score card
2.2 机器学习模型的完整工程流程
准备
明确需求
模型设计
样本设计
特征工程
模型
上线运营
2.3 项目准备期
明确需求
模型设计
业务抽象成分类/回归问题
Y标签定义
15天为正负样本的标记阈值,Y = 1的客户均是逾期超过15天的客户
将逾期<5天和没有逾期的人作为正样本
逾期5~15天的数据(灰样本)会从样本中去掉
“灰样本”通常放入测试集中,用于确保模型在训练结束后,对该部分样本也有区分能力。
样本选取
