Advertisement

金融风控Task1

阅读量:

一.学习知识点概括

本文重点介绍了金融风控的相关概述,并详细讲解了分类算法的评估指标。在现有知识基础上进一步学习了金融相关知识,并深入理解其应用方法。
仅限于个人学习用途的文章内容。如有不当之处,请多包涵!T_T

二.学习内容

1.预测指标

*分类算法常见评估指标
(1)混淆矩阵(confusion_matrix)

在这里插入图片描述

(2)准确率(accuracy) 在评估性能方面,准确率是一个重要的指标参数。然而,在样本分布失衡的情况下,则不宜作为唯一的评价标准。

在这里插入图片描述

然而,在某些情况下,准确率能提供一定的参考价值。但对于癌症预测系统这样的场景而言,在高度失衡的数据集中仅依赖准确率难以满足需求。

在这里插入图片描述

精确率是一个较为常用的指标,在实际应用中存在一定的局限性。此外,在实际应用中仅适用于数据分布较为稳定且偏斜度较小的情况。(4)召回率召回率用于衡量系统在信息检索任务中的性能表现

在这里插入图片描述

F1分数
F1分数代表精度与召回程度的平衡值,在理论范围内最大可达1(表示完美分类),最低可达0(表示完全错误分类)。其中精度与召回程度这两个关键指标之间存在显著的冲突关系:当精度越高时,则表明模型可能倾向于较少预测正类;而召回程度越高则意味着模型能够捕获到更多的实际正类案例。因此,在实际应用中需要根据具体需求权衡这两者之间的关系。

在这里插入图片描述

由此可见,在F\textsubscript{1}-Score的数值达到最大值(即等于1)时(F_1=1),该模型展现出最佳性能水平;而当F_1降至最低(即等于0)时(F_1=0),其表现已处于极端低效状态。

(6)P-R曲线(Precision-Recall Curve)
P-R曲线是表示精确率与召回率变化趋势的图形。

在这里插入图片描述

P-R曲线是衡量召回率与精确率的一种度量工具。在比较多个分类算法时发现,若算法1的P-R曲线完全"主导"算法2的P-R曲线,则位于外侧的算法1不仅具有更高的查准率,同时也拥有更高的查全率,这表明算法1较之于算法2具有更为卓越的分类性能。
ROC(Receiver Operating Characteristic) ROC曲线则是反映真实正率随假正率变化情况的一种图形工具,常用于评估模型预测性能。
在真实标签为正的所有样本中,TPR表示被正确识别为正的比例。

在这里插入图片描述

FPR:在所有实际为负例的样本中,被错误地判断为正例之比率。

在这里插入图片描述
在这里插入图片描述

(8)AUC(Area Under Curve) AUC(Area Under Curve)

AUC代表评估学习器性能的有效指标。
通过计算ROC曲线下面积可以获得AUC值。
用于评估二分类模型性能的标准是衡量其优劣的关键指标,
它反映了正样本排名高于负样本的比例。

在这里插入图片描述

ACU的核心机制是从所有正类(标记值为1)和负类(标记值为0)的数据中各随机抽取一个实例,并基于这两个实例构建分类模型进行预测。具体而言,在两个类别中分别抽取实例后进行预测运算,并将正类被正确识别的概率定义为p₁(即P(真实=1|预测=1)),负类被误判为正类的概率定义为p₀(即P(真实=0|预测=1))。那么AUC指标就表示当且仅当在两个类别中被预测结果与真实类别一致时的概率即为此指标。

(9)KS(Kolmogorov-Smirnov)

在风险管理领域中,KS指标通常用于评估模型的风险区分能力。当模型的区分度越大时(即ranking ability越强),其对风险等级的排序能力就越强。而ROC曲线以真实正例率作为纵轴、假正例率作为横轴;A K-S curve, on the other hand, plots both the true positive rate and false positive rate on the vertical axis. 公式如下:

在这里插入图片描述
在这里插入图片描述

KS值的不同代表了不同的情况。通常情况下,KS值越大,则说明该指标能够更好地区分两类数据的能力越强;然而,并非所有情况下数值越高都能反映出更好的模型效果。

三.学习问题与解答

*问题的提出
在上述学习过程中发现,在分类算法中存在多种评估指标然而,并非所有评估指标都可以在各类模型中直接应用。例如,在面对数据分布严重偏斜的情况下传统准确率就不再适用那么是否有一种适用于数据极度偏斜情况的方法呢?
*解答
通过SMOTE算法生成与少数类分布相似的新样本以实现平衡数据集
将数据划分为若干簇后再分别对较大簇实施随机欠采样或较小簇进行新样本生成
将监督学习问题转化为无监督学习任务放弃标签属性将其视为异常检测问题
先执行随机欠采样然后结合提升算法进行集成学习

四.学习思考和总结

经过此次学习,我不仅掌握了金融风控的一些基本知识,同时也深入学习了分类算法的相关指标.尽管各个指标存在差异,但并不是所有情况下这些指标都能适用.因此,在实际应用中我们需要根据具体情况选择合适的评估方法.

全部评论 (0)

还没有任何评论哟~