【数据挖掘基础】——模型的评估(4)

✍️作者简介:计算机科学与技术方向硕士研究生阶段的学习
🐿感谢各位的支持与鼓励!让我们一起进步吧!😊
如果觉得文章对你有所帮助,请您留言💬、点赞👍、收藏⭐️、加关注🚀。您的支持是我继续创作的动力!
目录
一、混淆矩阵与准确率指标
二、业务抽样评估
三、泛化能力评估
四、其他评估指标
五、评估数据的处理
总结
模型评估工作是对模型的各项指标进行全面检测与分析, 以确定其在实际应用环境中能否稳定运行.
该分类模型旨在识别与小狗相关的图片。经过精心设计的1000幅图像被用来评估该模型的表现,在所有图像上都进行了精确的手工注释(假设所有注释均为100%准确)。每幅图像都被明确标记为"含"或"不含"小狗。其中有84%(约842张)被标记为包含小狗(即842/1, 有842张包含小狗),6%(约69张)被标记为不包含小狗

一、混淆矩阵与准确率指标
评估指标:能够直接体现一个模型对样本数据的学习情况,并且是一种科学且规范的评估手段。

矩阵包含四种类型的数值:
- 真阳性(True Positive, TP)∶ 狗狗图像被判定为狗图像
样本的真实类别属于正类,并且模型预测结果同样是正类。
在此案例中该数值为745。
真阴性**(True Negative, TN)︰不是小狗图被归类为非小狗图
样本的真实类别属于负类,并且模型成功将其预测为负类(在此情况下该数值为175)
误报率(False Positive Rate, FPR):不是狗的照片却被判定为狗的照片。真实类别为负类的样本却模型将其预测为正类(在此案例中该值为25)。
4.误判(False Negative, FN) :小动物图片被错误分类为非小狗图
实际应归类的对象属于正类,在此案例中该数值达到55
准确率(Accuracy): 所有预测正确的占全部样本的概率。
在本案例中为(745+175)/(745+175+25+55)=0.92。

在分类问题中,准确率通常被视为一种直观且直接的评估指标。然而它也存在明显的局限性。例如,在一个数据集中如果负样本数量占据了99%即使分类器将所有样本都标记为负类也会得到99%的准确率。这表明在类别分布极不均衡的情况下(即某些类别占据主导地位)该指标可能会受到显著的影响。
精确率(Precision): 正确预测的比例即为所有预测结果中被标记为"是"的情况中的正确比例。对于"是小狗图像"这一类别而言,在TP(745)与FP(25)相加的情况下,其精确率达到约96.75%。

召回率(Recall):在该分类中被正确识别的数据量占所有样本的比例。具体而言,它等于真 positives除以(真 positives加false negatives)。例如,在‘是’类别的测试中,召回率为745除以(745加55),计算得出约为0.93。

F值(F Score): F值是衡量分类模型性能的重要指标之一。它通过平衡准确率与召回率来综合评估模型的表现能力。具体而言, F值等于2 \times \frac{精确率 \times 召回率}{精确率 + 召回率}这一算术表达式的结果. 在实际应用中, 当模型预测结果中真实样本全部被错误分类(即精确率为零)而假阳性却能正确识别所有反向类样本(即召回率为一)的情况下,F值仍会为零,这表明模型在该特定场景下具有较差的整体性能表现.


ROC曲线和AUC值: 创建了多组混淆矩阵
在某些模型的输出中
一般会提供'是'与'否'的概率数值(这两个数值相加之和等于1),并依据这些概率数值来推断结果
当设定发生率为P(\text{是}) \geq 0.1时,则判断结果定为\text{是};而当P(\text{是}) < 0.1的情况,则判断结果定为\text{否}。
在每一组混淆矩阵中,获取两个值:
真正例率:TP/ (TP+FN)
假正例率:FP/(FP+TN)
横坐标为真正例率,纵坐标为假正例率。

ROC和AUC值
二、业务抽样评估
常见问题是由于数据质量不高所导致的问题。针对标注数据的人工标注存在一定误差,并不能保证绝对准确。通过业务抽样评估能有效缓解这一情况。
三、泛化能力评估
泛化能力体现在模型对新数据的识别效果上。
在数据挖掘领域中存在大量复杂数值特征。
强健的系统能在数值分布变动情况下实现精准识别。
模型可能出现过拟合现象(overfitting),即模型在训练数据上的预测能力较强,在评估集合(test set/ validation set)上的预测能力较弱;相反,在欠拟合情况下(underfitting),模型在训练数据和评估数据上的整体预测效果均不理想。

泛化性能的评估基于不同数据集上的测试结果分析。
该系统旨在识别并解决模型在训练与验证阶段表现不佳的问题。
为确保模型泛化能力的有效提升,在识别并解决这些问题的基础上,需对原始数据进行预处理,并通过优化调整后重复训练模型。
四、其他评估指标
- 模型速度 :主要关注模型在实际应用中对计算资源消耗情况的评估指标
- 鲁棒性 :在面对错误数据、异常数据或数据缺失时,模型能否稳定运行并提供合理结果,同时确保运算过程不会出现崩溃
- 可解释性 :强调结果的透明度和可验证性,特别是在涉及高风险领域如金融风控时,必须能够清晰展示决策依据并接受第三方验证
五、评估数据的处理
随机抽样: 将数据划分为训练集与测试集,并通过测试集对模型进行性能评估以获得多种性能评估指标。
随机多次抽样: 基于随机抽样的方法,在相同的样本规模下重复执行n次独立的随机抽样过程,并通过取这n组测试集的平均结果来获得最终评估指标。
交叉验证: 需要训练多个模型。把原始数据分为k份,每次选取其中的一份作为测试集其他的作为训练集训练一个模型,计算这k个模型结果作为整体获得的准确率。
自助法: 随机有放回地抽取样本,构建一个训练集,对比原始样本集和该训练集。
把训练集中未出现的内容整理成为测试集。重复这个过程k次、构建出k组数据、训练k个模型
计算这k个模型结果作为整体获得的准确率。
总结
该系统通过构建多分类器框架实现了高效的特征提取与分类任务求解。
研究者重点考察了模型在新数据集上的泛化能力。
阐述了如何通过改进数据预处理方法来降低评估误差的可能性。
其他数据挖掘实战案例: [订阅链接]
数据挖掘实战
数据挖掘实战
数据挖掘实战
数据挖掘实战
数据挖掘实战
数据挖掘实战
数据挖掘实践
数据挖掘实战
数据挖掘实战
数据分析实践
数据挖掘实战
数据挖掘实战
数据挖掘实战
实战数据挖掘
