七月在线--金融风控实战--第一课 金融风控业务详解--课程笔记
建模流程:
1.前期准备工作:不同的模型针对不同的业务场景,在建模项目开始前需要对业务的逻辑和需求有清晰的理解,明确好模型的作用,项目周期时间和安排进度,
以及模型效果的要求。
2.模型设计:包括模型的选择(评分卡还是集成模型),单个模型还是做模型的细分,是否需要做拒绝推论,观察期,表现期的定义,好坏用户的定义,数据的
获取途径等都要确定好。
3.数据拉取及清洗:根据观察期和表现期的定义从数据池中取数,并进行前期的数据清洗和稳定性验证工作,数据清洗包括用户唯一性检查,缺失值检查,
异常值检查等。稳定性验证主要考察变量在时间序列上的稳定性,衡量的指标有PSI,平均值/方差,IV等。
4.特征工程:主要做特征的预处理和筛选,如果是评分卡,需要对特征进行离散化,归一化等处理,再对特征进行降维,降维的方法有IV筛选,相关性筛选,
显著性筛选等。另外会基于对业务的深入理解做特征构造工作,包括特征交叉,特征转换,对特征进行四则运算等。
5.模型建立和评估:选择合适的模型,像评分卡用逻辑回归,只需要做出二分类预测可以选择xgboost等集成模型,模型建好后需要做模型评估,计算AUC,KS,
并对模型做交叉验证来评估泛化能力及模型的稳定性。
6.模型上线部署:在风控后台上配置模型规则,对于一些复杂的模型还得需要将模型文件进行转换,并封装成一个类,用Java等其他形式来调用。
模型监控:前期主要监控模型整体及变量的稳定性,衡量标准主要是PSI,并每日观察模型规则的拒绝率与线下的差异。后期积累一定线上用户后可评估线上模型
的AUC,KS,与线下进行比较,衡量模型的线上的实际效果。

特征工程
用户基本属性
phone_nember
- 手机号前缀是否相同
- 手机号归属地是否相同
- 手机号与工作城市是否相同
- 主贷人手机号与联系人手机号相似程度
- 是否是虚拟运营商
- 流量卡还是通话卡
- 手机号前4位:可用于比对iccid的解析手机号
nickname
- 昵称符合固定的规律(中文+数字)
- 备注是否符合某种亲密的称呼
birthday
- 年纪
- 星座
- 生肖
sex
- 性别是否失衡
password
- 是否都相同
身份证号码
- 年龄 核对
- 性别 核对
- 出生城市编号 与身份证户籍核对
邮箱
- 是否是一次性邮箱
- username 满足规律
- 是否同一邮箱服务商
- 邮箱里面的数据(账单)
学历
- 相似性
- 分布是否有明显变化
住房
- 租房情况是否雷同
积分
- 是不是超过某个阈值
签到
- 相似性
ip
- 是否是同一个号段
- 每次登录ip地址是否相同
- 是不是临时ip 和 gps
- ip 和 gps 是否能对的上
gps
- 经纬度相似性分析
- 国家 省份 城市 相似性
- ip 和 gps 是否能对的上
- 常住地址是否一致
- 工作地址是否一致
wifi
- ssid
- wifi list
- 贷款前的几分钟有没有切换过wifi
- 同一个WiFi申请贷款人数
application time
- 时间切片
- 注册用了多长时间(太快太慢都有问题)
- 一共申请了几次
login time
- 时间切片
- 登陆了几次、频率
- 最后一次登录时间距贷款时间的间隔
- 同一时间登录做一个校验(同一时间多人登录)
ua(user agent)
- 每次打开是否是同一个ua
渠道
- app/H5/微信
- 渠道ID属于违规渠道
app version
- 每次app的版本号是否相同
- app版本会不会太老了(老版本的app有bug,可能会被黑中介用来攻击我们)
推荐人/联系人
- 名字匹配
- 手机号匹配
- 多人互为或共用紧急联系人(联系方式)
设备指纹
imei
- 受否都相同
- 每次登录imei号是否都相同
device id
- 是否都相同
- 每次登录device id号是否都相同
分辨率
- 手机型号和屏幕分辨率是否一致
mobile type
- 手机品牌
- 手机型号
os(operating system)
- 每次打开操作系统是否都相同
- 来申请的人是否os都相同
- os的版本是否太旧
中文错别字可以考虑转换成拼音做相似度匹配
address
- 地址要标准化
- 模糊匹配
- 相似度计算(cos距离,词向量)
company
- 正则
- 字节拆分
- 关键字提取
- 相似度计算
- 错别字/同音字识别
第三方数据
人行征信
- 公司信息是否一致
- 学历是否一致
- 居住地址是否一致
- 手机号码是否一致
- 逾期数据
运营商
- 是否有相同的联系人
- 是否有黑名单客户在通讯录中
- 通话最频繁的几个人(所在地是否和他相同)
社保公积金
- 工资
- 社保缴纳月数、金额
- 公积金缴纳月数、金额
