Advertisement

深度学习模型评估

阅读量:

如何衡量一个模型的质量?

分类评测指标

在计算机视觉领域中,图像是一个基础且核心的任务,在众多基准模型中被广泛研究的对象。最初阶段仅涉及1个或少数几个类别且基于灰度图的手写数字识别任务(如MNIST),随后发展出更大的规模,如CIFAR-19999(仍为多个类别)与CIFAR-23456(扩展至多个子类)。随着数据库规模的增长,CIFAR-78654等也在不断涌现新的挑战与改进方向。这一领域持续发展并不断演进,在像ImageNet这样拥有超过一百万个样本的数据集中展示了强大的性能水平

图像分类其本质是一个基于模式识别的技术其目标在于将图像按照某种特征进行归类以实现最低的分类错误率在本研究中我们限定讨论单标签分类问题即每个样本仅归属一个类别

在单个标签分类问题中,在进行模型评估时常用的评价指标包括Accuracy、Precision、Recall、F-score、PR曲线以及ROC和AUC。

在完成所有其他统计量的计算后,在此之前我们先来计算一些基础的统计量;这些统计量将被用于二分类任务的评估;同时它们也能够扩展到多分类场景。

被标记(视为)正类别中的真实 positives 数量被称为 True Positive(缩写 TP);
被标记(视为)负类别中的真实 negatives 数量被称为 True Negative(缩写 TN);
被标记(视为)正类别中的误判 positives 被称为 False Positive(缩写 FP);
被标记(视为)负类别中的误判 negatives 被称为 False Negative(缩写 FN);

通过设定一个概率阈值T来判别是否为正例。预测概率大于阈值T会被归类为正类别,小于阈值T则被视为负类别,默认情况下这个临界点设置在0.5。如果我们降低这个阈值T,则能够识别出更多的样本作为正类别。这样能够显著提高正类别成员的成功识别率(召回率),但这种做法同时也可能导致更多的潜在负面案例被误诊为正面情况。反之,在提升该临界点时,则会减少正面案例的成功比例(召回率),但换来了更高的精确度(即真阳性占所有阳性实例的比例)。因此,在权衡这两者时需要谨慎选择合适的临界点设置。

如果是多类别问题,并以ImageNet 1000分类比赛中的100个类别为例,则预测结果即为该样本对应概率最高的那个类别

准确率Accuracy

在单标签分类任务中,每个样本仅归属一个明确的类别。当模型成功预测该类时视为分类准确;若未能预测,则判定为分类不准确。因此最直观地衡量指标即为Accuracy值(亦称准确率)。

Accuracy = \frac{TP + TN}{TP + FP + TN + FN}
即代表所有样本中被正确分类的比例,
根据不同的阈值T设置策略进行调整。

在ImageNet中所涉及的Accuracy指标包括两种类型:Top_1 Accuracy和Top_5 Accuracy。其中Top_1 Accuracy指的是前面所述的通过计算所得出的具体数值指标。

样本x_{i}被标记为y_{i};类别数目是(0,1,…,C)个;预测函数用于分类任务;基于给定测试集上的准确率即为Top-1评估标准。

如果提供概率最高的5个预判结果,则预判正确仅当真实类别包含在内时成立。计算所得的指标即为Top-5表现。

目前在ImageNet上,Top-5的指标已经超过95%,而Top-1的指标还在80%左右。

精确度Precision和召回率Recall

如果我们只考虑正样本的指标,有两个很常用的指标,精确度和召回率。

公式 说明
正样本精确率 Precision=TP/(TP+FP) 所有被分类为正样本的数据,有多少真的是正样本
正样本召回率 Recall=TP/(TP+FN) 所有正样本,被正确分为正样本的比例

PR曲线

一般而言,在其他条件不变的情况下,较高的召回率会伴随较低的精确度。通过选取不同参数值,在实际应用中可动态描绘Recall-Precision曲线图。例如如上文所述。

PR曲线

横坐标代表召回率(Recall),纵坐标代表精确率(Precision)。当曲线越贴近右上方时,则表明模型性能越优。其与坐标轴围成的区域面积可用作量化指标,并且该指标取值范围在0至1之间。

F1 score

通常情况下,在评估模型性能时我们会既重视正样本的准确性也关注其召回率。然而我们不希望仅以准确度作为评估标准因此引入了一个综合考量两者的F分数作为替代

F1\ score=2\cdot Precision\cdot Recall/(Precision+Recall);当且仅当召回率Recall和精确率Precision均较高时,F1\ score会显著提高;由此可见,F1\ score是一个综合性能的指标。

ROC曲线与AUC指标

以下是一些常见的分类评估指标:准确性(Accuracy)、精确性(Precision)、召回率(Recall)、F1分数(F1 score)以及混淆矩阵(Confusion Matrix)。这些指标都是单一的数值指标。如果我们想深入分析分类算法在不同参数设置下的表现情况,则可以考虑绘制一条ROC曲线。这条曲线全称为接收者操作 characteristic曲线(Receiver Operating Characteristic),简称ROC curve。

ROC曲线可以用于评价一个分类器在不同阈值下的表现情况。

对于ROC曲线上每一个数据点而言,在x轴上表示的是false positive ratio(FPR),y轴则代表true positive ratio(TPR)。具体展示了分类器在真实正样本与虚假正样本之间的权衡关系。其计算方法如下所述:

TPR=TP/(TP+FN),代表分类器预测的正类中实际正实例占所有正实例的比例。

其中FPR代表分类器预测为正类但实际为负类的比例,在模型性能评价中具有重要意义。具体而言,在所有被分类器预测为正类的对象中,“错误地将实际应为负类的样本识别出来”的占比即为此处所定义的FPR值。当该值越大时,在真实负样本群体中被误判为正的情况就越显著;这通常表明分类器对正常类别(即真实应归于负样本)的识别准确性较低。

ROC曲线通常如下:

ROC曲线

其中有4个关键的点:

  • 点(0, 0)处:当FPR与TPR均为零时(即FPR = TPR = 0),该分类器将所有测试样本划分为负类。
    • 在此情况下(即当FPR = 1且TPR = 1时),该分类器将所有测试样本划分为正类。
    • 当FPR为零而TPR为一(即FPR = 0且TPR = 1)时(亦即FN和FP均为零),该分类器实现了完美的识别效果。
    • 最差的情况出现在当FPR等于一而TPR等于零(即FP率为一且真阳性率为零)时(此时tp和tn均为零),这表明该分类器未能有效区分任何类别。

ROC曲线相较于PR曲线具有显著优势:当测试集中的正负样本比例发生变化时,在这种情况下(即面对测试集样本比例变化的情况下),其性能特征不易受到影响(即显示出较强的鲁棒性)。

例如,在负样本数量提升至原有水平十倍的情况下

ROC曲线越靠近左上角,则该分类器的表现更为出色;若某一分类器的ROC曲线完全包围了另一个分类器,则可判定前者的表现更为优异。

如果我们要比较两个分类器的表现,则可以通过分析两条ROC曲线来进行量化评估;通常会选择AUC指标作为评估标准。

AUC值即为ROC曲线下方区域所围成的面积;该数值代表的是分类器对正负样本预测结果的概率区分能力;在随机选取一对正负样本的情况下;分类器能够正确识别出正样本预测值高于负样本的概率有多大

检索与回归指标

IOU

IOU

IoU全称缩写为Interp-over-Union,在目标检测领域内亦即交并率。该指标定义为两个矩形框在空间上重叠区域与其总面积之比,并以公式IoU=A∩B/A∪B表示计算得出。该指标通常用于评估目标检测算法的准确性。

当两个框完全重合时,其iou值为1,在目标检测领域这是理想状态。通常在目标检测场景中,在计算出的iou值高于或等于0.5时视为成功召回。提高iou阈值将导致召回率降低,并且提升iou要求会使得定位框的质量也会相应提升。

在图像分割领域中,IoU的应用十分广泛,在处理非矩形边界时尤其表现出色。例如,在二分类任务中用于区分背景与前景时,则可定义为IoU=(真实区域交集像素数/真实区域并集像素数),这一指标相较于直接计算每个像素分类准确率的优势在于更能敏感地捕捉到分类错误的情况。

AP和mAP

Average Precision(AP)通常被简称为AP,在信息检索和回归分析等任务中被广泛应用的指标。实际上等于Precision-Recall曲线下所包围区域的面积这一概念已在前一节中详细阐述过。

在PASCAL VOC 2010年以前的比赛中,AP的具体计算方法如下:

设定一系列等间距的阈值c[0, 0.1, 0.2, … , 1]用于评估模型性能指标。对于每个特定的阈值c_i,在满足Recall≥c_i的情况下寻找Precision的最大取值范围,并将这些最大Precision取平均得到AP指标。根据表格中的计算流程可知,在不同数量级的N参数配置下会导致Precision与Recall结果的变化情况出现差异性;因此,在某些Recall区间内可能会存在多个不同的N参数配置导致对应的Precision出现重叠;此时就需要在这些情况下选取对应的最高Precision配置。

AP就是这11个precision的平均值,将所有类别的AP再取平均,就得到了mAP。

PASCAL VOC 2010年通过开发出一个更优的评估标准,在取消了原有设定中的11个点后,在处理类别分布失衡的情况时显著提升了计算效率。

假设集合中有N个唯一的标识符(id),其中包含M个特定的标签(label)。接下来将选取M个Recall节点均匀地分布在0至1之间(间隔为1/M)。针对每一个Recall值r,在其对应的Precision分布中找出其对应的Precision中的最大值p(r)。将这些Precision取平均得到最终的AP指标(Average Precision),而mAP(Mean Average Precision)的计算方法保持不变。

AP评估的是训练出的模型在单个类别上的表现如何;而mAP则评估了训练出的模型在多个类别上的整体表现如何。

参考文献

[1] Yuan Y, Guo Q, Lu X, et al. Image quality assessment[J]. Neurocomputing, 2015: 227-241.

[2] Kamble V, Bhurchandi K M. 基于无参考的图像质量评估算法综述[J]. Optik, year 2015, volume 126 issue (11): 1090-1097.

[3] 龙鹏. MRI医学图像增强与分割新方法[D]. 中国科学院大学, 2015.

[4] Xu Qian, Huang Guo, Yuan Yuting, et al. 该研究对生成对抗网络的评估指标进行了实证分析[J]. 2018.

全部评论 (0)

还没有任何评论哟~