Advertisement

金融风控-贷款违约预测 Task1 赛题理解

阅读量:

Question1 准确率的局限性

正确率(Accuracy)作为评估模型性能的重要指标,在分类任务中通常定义为被正确识别的实例数量与总实例数量之比。然而,在面对类别分布严重失衡的数据集时这一指标的表现会受到显著影响。

一般使用AUC曲线和PR曲线作为评价指标

精确率和召回率的关系

精确度(Precision)衡量了在所有被预测为正类的样本中实际属于正类的比例。而识别准确率(Recall)则关注于能够正确识别出所有实际存在的正类样本的情况。需要注意的是,在计算方式上存在显著差异。具体而言,在计算精确度时,分母指的是被预测为正类的所有样本数量;而计算识别准确率时,则采用的是一个更具体的分母——即被实际归类为正类的所有真实样例数量。

通常情况下, 我们期望两个指标尽可能高, 但实际情况中, 它们有时会出现相互制约的情况. 例如, 在将所有样本标记为正的情况下, 当召回率达到100%时, 精确率却显著下降. 通过绘制P-R曲线能够反映两者的关联性, 其中P-R曲线采用召回率为横坐标、精确率为纵坐标的安排方式.

在这里插入图片描述

此时需要综合考量它们,在实际应用中最为常用的方法是采用F-Measure这一指标(亦称作F-Score)。其中β是用于平衡Precision与Recall在F-score计算中的比重,在取值方面存在以下三种情况:

  • 当设置值为1时,则表明Precision与Recall具有同等的重要性。
  • 当设置值低于1时,则强调Precision相较于Recall更为关键。
  • 当设置值高于1时,则突显Recall相较于Precision更为突出。

通常情况下取β值为1,则视这两个指标具有同等的重要性。此时F-score的计算公式为:F1-Score = \frac{2}{\frac{1}{Precision} + \frac{1}{Recall}}

ROC(Receiver Operating Characteristic)曲线

  • ROC空间将假正例率(FPR)定义为 X 轴,真正例率(TPR)定义为 Y 轴。

TPR即指真实正例样本中被正确识别的比例。TPR = \frac{TP}{TP + FN} FPR则表示真实负例样本中误判为正的比例。FPR = \frac{FP}{FP + TN}

在这里插入图片描述

曲线越接近左上角时表明正例占据优势地位于负例,这通常预示着模型的整体性能随之提升。

全部评论 (0)

还没有任何评论哟~