Advertisement

【CV+DL学习路03】CNN可视化学习3——Visual Explanations from Deep Networks via Gradient-based Localization

阅读量:

这是我可视化学习的第三篇文章。

Grad-CAM: Visual Explanation through Gradient-based Localization Mechanisms, presented at ICCV 2017

参考文献中的阅读笔记包括以下文章链接:文章地址

翻译:翻译

1、介绍

这篇论文主要是提出了一种Grad-CAM技术对神经网络进行解释。

该改进方案是对最初提出者在2016年提出的CAM技术的一种提升与拓展。这一改进使得我们无需对现有网络架构进行任何改动即可实现功能上的增强。从而允许我们将此改进方案应用至所有基于卷积神经网络(CNN)的设计方案中。值得注意的是,在全卷积神经网络的情况下, 该改进方案可以通过仅关注中间特征来简化计算过程, 其实质就是将原始CAM算法进行了优化与扩展。通过这种方法, 我们的解决方案只需针对每个输入图像执行一次正向传播和一次部分反向传播操作, 在计算复杂度上相较于原方法实现了显著提升.

在应用CAM技术时存在以下不足:首先必须对模型架构进行相应修改后才能展开训练工作;其次该方法仅限于一种特定类型的神经网络(如基于卷积层与全连接层的图像分类型CNN),这种限制降低了其适用范围;此外这种方法将会导致原有模型在执行目标识别任务时出现性能下降的情况。

该方法能够有效地对多种深度神经网络架构实现梯度可视化,并且其稳定性特性使得其在实际应用中表现出良好的可靠性和适应性。不仅适用于图像识别等传统应用场景,在自然语言处理、音频分析等多个领域均展现出广泛的应用潜力。而不仅仅局限于图像分类这一单一领域

该方法在卷积神经网络的最后一层生成粗略定位图谱,在图像中标注出参与预测的关键区域。相较于传统方法,该技术适用于多种卷积神经网络架构:包括拥有全连接层(如VGG系列)的标准CNN架构;以及处理结构化输出(如图像描述生成)的专用CNN;还有具备多模态输入(如视觉问答系统)或涉及强化学习任务的应用场景,在这些情况下无需修改原有架构或重新训练模型即可实现有效预测。

将Grad-CAM与现有的细粒度可视化技术进行深度整合以开发新的高效可视化技术方案,在图像分类、图像描述生成以及视觉问答(VQA)等多个应用场景中展现出卓越的效果

本文实验部分系统性地对Grad-CAM进行了多维度探究。涵盖弱监督下的定位性能、同时也具备分类性能,在分析数据集的偏差特征后能够辅助提升模型的泛化能力,并应用于图像描述(Image Captioning)和视觉问答(VQA)等多个领域。研究表明该方法具备广泛的适用性,并能够为不同场景下的模型决策提供可靠的视觉解析支持。

paper中的一个小demo,使用Grad-CAM的效果如下:

这样的结果与人类视觉系统的感觉特性高度一致,在图像处理领域中识别物体时,则主要依据其关键特征进行判断;在图像识别任务中发现某一物体时,则主要依据其关键特征进行分类。

2、相关工作

该论文采用了先进的技术手段,在近期的研究成果中借鉴了CNN可视化、模型可信度评估以及弱监督学习定位技术的相关研究工作。

可视化CNN。

之前的网络可视化的两种方法:

1)deconvnet(反卷积)

2)guided-backpropagation(导向反向传播)

虽然实现了对细节的可视化展示,但这些方案无法有效区分不同的类别。对于不同类别的样本,在可视化的呈现上差异甚微(如图1b和1h所示)。

其 visualization methods for image synthesis aim to maximize the activation of network units or reverse latent representations. Although these can be high-resolution and used for category discrimination, they enable model visualization but cannot predict specific input images.

测定模型信任度的方法 论文被实验所采用的技术为Grad-CAM可视化技术,并进一步验证了其在自动化系统中的应用价值。

基于弱监督的学习框架。

3、方法

Grad-CAM基于CNN最后一层卷积层传递给的梯度信息以解析每个神经元在目标分类中的重要性。

如图所示:Grad-CAM概述如下:给定输入图像及其目标类别(例如'虎猫'或其他可微分输出类型),将该图像传递至模型中的卷积神经网络部分。随后通过对特定任务的计算求得各分类别的原始分数值。对于所需类别而言仅激活其梯度而忽略其他类别的梯度值。接着反向传播此信号至所关注的关键卷积特征图并结合以确定 Grad-CAM 定位结果(以蓝色热力图形式表示)。最后将该热力图与反向传播导引进行逐点乘法运算从而生成高分辨率的 GuidedGrad-CAM 显示效果。

该方法能够生成与卷积特征映射具有相同尺寸的粗略热力图(例如,在VGG和AlexNet网络的最后一层卷积层中这种热力图通常为14×14)。我们采用ReLU函数对图谱线性组合的结果进行激活处理。若未采用ReLU激活则定位结果可能会过度强调单一类别特征进而导致定位性能出现下降。

作为CAM的推广的Grad-CAM。

该方法命名为 GuidedGrad-CAM。尽管 Grad-CAM 可视化能够实现类别区分,并成功定位相关图像区域。然而,在展示像素级别的重要性方面却显得力有未逮。例如,在图 1c 中,该方法能够在图中迅速识别出猫的区域;但是网络预测为何将其归类为"老虎猫"仍不明确

为了整合两者的优点,作者提出了一种新型方法:通过逐点相乘法(即首先利用双线性插值对输入图像分辨率进行上采样)将导向反向传播与Grad-CAM可视化技术相结合。这种创新的可视化方案不仅能够实现高清晰度(当目标类别为'老虎猫'时能够突出显示其特征如条纹、尖锐耳朵以及眼睛),还具备卓越的分类区分力(能够明确识别出为'老虎猫'而非其他类别如'拳击犬')。

4、弱监督定位评估

论文本节的内容是评估Grad-CAM在图像分类环境下的定位能力。

基于ImageNet竞赛中获得的Top-1和Top-5结果进行图像分类任务的研究中,本研究将针对输入图像生成相应的分类结果并结合梯度可视化方法(Grad-CAM)提取特征定位关键区域。具体而言,在对VGG-16预训练模型进行推理后,在所有检测到的目标区域中选择具有最高置信度的对象并附加矩形边界框。此外,在这一过程中还涉及对模型输出结果的最大激活值进行分析,并通过设定最大激活值的15%比例设定阈值用于二值化处理以区分背景与目标区域。该方法旨在通过多维度特征分析提升模型对复杂场景的理解能力,并通过实验验证其有效性

Grad-CAM 的定位精度明显优于 c-MWP 方法以及 Simonyan 等人针对 VGG-16 模型所取得的结果。相比 CAM 方法,在 Grad-CAM 中实现了更优的 top-1 位置识别精度。尽管 CAM 方法在定位精度上有不错的表现(top-1 位置识别准确率达到 75.74%),但其主要缺点在于对模型架构进行了重大修改,并要求重新进行训练操作。值得注意的是,在 Grad-CAM 方法中并未牺牲分类系统的性能。

5、可视化评估

考察Grad-CAM可视化方法在分类区分能力方面的性能表现相较于先前技术是否更为突出?对比实验中采用VGG-16网络与AlexNet类型的CNNs作为对比对象,在该数据集上进行实验并生成相应的视觉化结果。

5.1、评估分类判别能力

本次实验从VOC 2007数据集中筛选出包含两个标注类别的图像,并为其生成视觉化表示。对以下四种可视化技术进行对比分析:传统反卷积网络、基于导引的反向传播方法以及其对应的Grad-Cam变体(包括Deconvolution Grad-Cam 和 Guided Grad-Cam)。其中参与实验的人力资源共计43人。

实验采用了全部4个可视化方案去测试90个图像类别(共涉及360个可视化指标)。对于每张图片采集了9个评分指标,并基于实际情况计算其平均得分,并通过该平均值来衡量模型的准确度。

当评估Guided Grad-CAM时,在约61.23%的病例中能够准确识别出显化的类别(相较于反向传播导引法仅有44.44%;由此可见 Guided Grad-CAM较之提升了人类性能 16.79%)。此外 Guided Grad-CAM有助于增强逆卷积过程中的类别区分能力(由53.33%提升至61.23%)。该方法在所有对比方案中均展现出最佳性能

5.2、信任度评估

对比分析guided-backpropagation与Guided Grad-CAM的方法后发现,VGG-16相较于AlexNet在可靠性上更为突出,在测试集上的平均精度达到79.09 mAP(与69.20 mAP相比)。

实验指导54名Amazon Mechanical Turk(AMT)参与者以高出1至3个单位(±2个单位)的标准评估模型的有效性。研究表明,在尽管分类器得出相同结论的情况下,人类参与者却能从不同的视角识别出更为精确的分类器。综上所述,我们的可视化工具有助于将用户的信任转移到更具推广价值的模型中。

5.3、可信度与解释性

这部分我们评估潜在模型的可信度。

为了更好地实现目标,在本研究中我们采用了图像遮挡技术作为一种具有较高可信度的参考解释,并评估了当输入图像中的特定区域(即补丁)被遮挡时CNN得分的变化情况。研究表明,在对比所有现有方法的基础上,Grad-CAM可视化能够更有效地提高模型的可解释性。其在可解释性方面表现出色,并且Grad-CAM在提升模型信任度方面表现更为突出。

6、诊断图像分类CNN

6.1、分析VGG-16的故障模式

本研究旨在通过Guided Grad-CAM对ImageNet中的VGG-16模型识别错误进行分析。随后我们获得了若干个基于VGG-16模型识别出无法正确分类的样本。针对这些识别错误的样本,我们利用Guided Grad-CAM技术实现了真实类别与预测结果的有效对比。该方法的优势体现在其能够提供比现有技术更高分辨率的真实类别与预测类别对比图的能力上。

在这些情况下,模型(VGG-16)未能预测其前1(a和d)和前5(b和c)预测中的正确类别。

6.2、识别数据集中的偏差

Grad-CAM的另一种用法:识别并减少训练数据集中的偏差。

将ImageNet数据集中提取出的VGG-16模型实例重新分配用于"医生"与"护士"两类任务的研究工作进行展开。从广泛使用的图像搜索引擎中提取了250张相关图片作为训练数据集的基础来源。实验结果显示,在验证集上所建立起来的该分类模型达到了相当不错的准确率(82%)。通过Grad-CAM可视化技术分析结果发现,在识别过程中该模型主要依赖面部特征进行分类判断。然而,在实际应用中发现该模型存在一定的偏差性表现:具体而言,在识别若干名女医生时将其误判为护士;同时又将若干名男护士误认为是医生角色。通过对上述 Grad-CAM 可视化结果深入分析后发现,在当前的数据样本分布上存在明显的类别不平衡现象(男女医护人员比例失衡明显)。基于此发现开展针对性的数据补充工作,在原始数据集中加入了若干具有代表性的反向样例(即若干名男护士和女医生),从而实现了对现有数据分布问题的有效纠正;在此基础上重新进行了优化训练工作后的新版本分类器在测试阶段展现出了更为均衡的表现(准确率达到90%)。研究结果表明,在这一特定场景下 Grad-CAM 技术不仅可以有效揭示现有数据集中存在的偏见性问题;还可以通过主动学习策略实现对这些问题的有效修正方案

7、Image Captioning和VQA

最后, 作者采用了Grad-CAM技术用于Image Captioning和VQA任务, 并对这两个任务进行了实验; 但由于对其应用尚不熟悉的原因, 未对其中一部分内容进行深入研究

8、结论

这篇论文深入探讨了一种创新性的分类判别定位方法-梯度加权类激活映射(Grad-CAM)-通过生成视觉级解来提升基于卷积神经网络的所有分类模型的可解释性

此外,在本文中采用了基于定位机制的Grad-CAM方法,并将其与现有的高分辨率可视化技术进行融合处理;从而实现了具有良好的分类识别性能的 Guided Grad-CAM算法构建。

作者通过实验表明Grad-CAM在可解释性和对原始模型的信任度两个关键指标上均超越了现有方法。不仅能够更精确地进行分类工作,并且有助于深入理解模型的可靠性和稳定性。此外该方法还能帮助发现数据集中存在的偏差问题

全部评论 (0)

还没有任何评论哟~