金融风控训练营 Task 1 学习笔记
一、学习知识点概要
了解数据概况
学习混淆矩阵概念
准备效率、精确度、检出率、F分数以及P-R曲线以及Receiver operating characteristic空间以及金融风控预测任务中常用的评估指标
二、学习内容
分类算法:
什么是分类?
什么是Categorization or Classification?它是识别数据库中一组数据对象的共同特征,并按照预设的分类标准将其划分到不同的类别中。其目标是通过构建分类模型,在给定的数据集中将数据项映射到相应的类别里。
为什么进行分类分析?
当我们面对一个杂乱无章的数据集时,对其进行整理与归类有助于更好地提取数据中的有用信息,并通过分析同一类别中的数据特征来提升模型性能。
如何评估一个分类算法的表现?
对于二分法问题而言,在实际预测结果与真实结果之间总会存在一定的偏差差异。因此我们引入了评估指标来衡量模型的有效性与准确性。
四个观察值:
①TP(真实正例):当模型预测结果为正例时(如预测某用户违约),而实际结果确实为违约
②FP(错误正例):当模型预测结果为正例时(如预测某患者违约),但实际结果却未违约
③FN(错误负例):当模型预测结果为负例时(如预测某患者无违约),而实际结果却显示有违约
④TN(真实负例):当模型预测结果与实际结果均为负例时(如正确判断某患者无违约)
在建立分类模型进行诊断或评估时,我们希望混淆矩阵中TP和TN的数量尽可能多、FP和FN的数量尽可能少。这样一来,则能更好地反映分类器的诊断准确度
三、学习问题与解答
准确率在样本分布不均匀时并不适用
本次赛题需要满足怎样的结果才算合格?
基于收集的数据集D建立一个预测模型f用于评估借贷方A在未来还款中的潜在风险等级R_A。通过应用该模型对测试数据集\mathcal{D}_{test}进行分析处理后生成评估结论\mathcal{C}。然而,在判定是否存在违约风险时若仅采用"是否会违约"这一二元判别标准显得过于绝对化:实际情况中应采用"存在多少百分比的概率会遇到违约风险"这一更为细致的概率量化指标来衡量潜在风险水平。具体而言当计算出某笔贷款的风险评分值\alpha \in (0,1)达到较高的阈值但并未超过设定的风险警戒线时我们应当综合考量采取以下策略:一方面允许发放该笔贷款以避免信用 tighten 的过度影响另一方面可适当降低发放额度以降低整体风险水平
四、学习思考与总结
过去我对金融风控领域以及DSW在线编程缺乏深入的了解。我曾是一名完全没有经验的新手,在面对这些专业领域时感到非常陌生和挑战。尽管如此,在不断学习和实践的过程中学习过程仍然相当具有挑战性,并且最终通过持续努力和坚持克服了这些困难。
“柳暗花明又一村”的感觉让我回味。
