金融风控-贷款违约预测Task1
一.容易混淆
若一个实例为正类,被预测为负类,即为假负类。(False Negative)(FN)
若一个实例为负类,被预测为正类,即为假正类。(False Positive)(FP)
二.概念理解:
1.精确率(Precision):P = TP/(TP + FP)
表述了分为正类的示例中实际为正类的比例。
2. 召回率(Recall):recall=TP/(TP+FN)
是覆盖面的度量,度量有多少个正类被分为正类。
与此对等有灵敏度(sensitive):sensitive = TP/P,
表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力。
3.综合评价指标:F1 Score,P和R指标有时候会出现的矛盾的情况,综合考虑他们,最常见的方法就是F-Measure(又称为F-Score)。F-Measure是Precision和Recall加权调和平均。
4.P-R曲线(Precision-Recall Curve)是描述精确率和召回率变化的曲线。
P-R曲线
通过P-R曲线图可以看到当p=0时,R=1。p=1时R=0。
两个边界取值考虑两个边界情况,
当score > threshold 时recall为1,Precision为0。
当score < threshold 时Precision=1,recall =0。
由曲线看出:
精准率和召回率是相互牵制,互相矛盾的两个变量,不能同时增高;
阈值越大,精准率越高,召回率越低;阈值越小,精准率越低,召回率越高;
5.ROC(Receiver Operating Characteristic)与AUC(Area Under Curve)
ROC空间将假正例率(FPR)定义为 X 轴,真正例率(TPR)定义为 Y 轴。
FPR=TP/(TP+FN),即正确识别的正例数据占据总的正例数据的比例,为召回率。在正类数据较少时很适用。
TPR=FP/(FP+TN),即实际值为负例数据,将负例数据预测为正例的百分比;
AUC(area under thecurve)即ROC曲线的下部面积,越大分类器越好。
ROC曲线好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(classimbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。而P-R曲线则会变化较大。但在极度不平衡的数据下(Positive的样本较少),PR曲线可能比ROC曲线更实用。
6.金融风控预测类常见的评估指标:
类似于所有评价体系,有对应的公式体验评分标准。K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。 KS值越大,模型的区分能力越强,但不代表越大模型效果就越好,如果KS过大,模型可能存在异常,所以当KS值过高需要检查模型是否过拟合。
三.补充:
id 为贷款清单分配的唯一信用证标识
loanAmnt 贷款金额
term贷款期限(year)
interestRate 贷款利率
installment 分期付款金额
grade 贷款等级
subGrade贷款等级之子级
employmentTitle就业职称
employmentLength就业年限(年)
homeOwnership 借款人在登记时提供的房屋所有权状况
annualIncome 年收入
verificationStatus 验证状态
issueDate 贷款发放的月份
purpose 借款人在贷款申请时的贷款用途类别
postCode 借款人在贷款申请中提供的邮政编码的前3位数字
regionCode 地区编码
dti 债务收入比
delinquency_2years 借款人过去2年信用档案中逾期30天以上的违约事件数
ficoRangeLow 借款人在贷款发放时的fico所属的下限范围
ficoRangeHigh 借款人在贷款发放时的fico所属的上限范围
openAcc 借款人信用档案中未结信用额度的数量
pubRec 贬损公共记录的数量
pubRecBankruptcies 公开记录清除的数量
revolBal 信贷周转余额合计
revolUtil 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额
totalAcc 借款人信用档案中当前的信用额度总数
initialListStatus 贷款的初始列表状态
applicationType 表明贷款是个人申请还是与两个共同借款人的联合申请
earliesCreditLine 借款人最早报告的信用额度开立的月份
title 借款人提供的贷款名称
policyCode 公开可用的策略 =1 代码=2
n系列匿名特征 匿名特征n0-n14,为一些贷款人行为计数特征的处理
