Advertisement

可解释性论文阅读(三)--Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

阅读量:

隔了一天我又开始看英语论文了。而且我发现自己的态度也有所变化,并对自己产生了好感。以前我对论文阅读的方式总是匆匆掠过文字内容,但对英语阅读的能力较弱。所以当我开始接触英文论文时,自己感觉上会变得比较安静。不过现在我对英文论文也不排斥了。遇到英文的文字时也很自然地开始了阅读。

在正式写作时,我也常常用到Grad-CAM这一技术。由于个人对笔记方法有特别的需求,在我的论文中我已经对其进行了详细标注。而这里仅限于个人学习和参考的内容。

2.我们的可视化可以:
1.应用广泛:无需调整网络架构以及重新训练模型。
2.提供深入分析:该方法不仅能够揭示CNN模型在特定场景下的失效特征(即看似不合逻辑但实际准确的预测结果),还可以展示基于CNN+LSTM框架在图像区域区分任务上的显著优势。
3.通过识别数据集中的偏差分布来诊断模型故障。
4.对模型决策过程进行文本解释。
5.帮助未经过专门训练的人有效地区分出性能更优与性能更差的网络版本(即使两者在预测任务上的表现完全一致)。
6.弱监督定位技术指的是像fast-SCNN、SSD、Yolo-V3等目标检测模型虽然基于标注数据集构建但同样能够利用激活图方法精确标出目标大致位置的技术(如CAM论文所述)。作者对此方法进行了实验验证表明尽管其效果不如强监督学习方法显著但依然具有较高的实用价值。

一种‘良好的’视觉表示能够通过模型验证任何目标类别都应该具备:
(a)类别区分能力(即模型能够在图像中标识出目标类别)
(b)高分辨率表示(即详细刻画了细微差别)

图1分别展示了对狗和猫的可视化效果。然而第2列虽然具有良好的细节刻画能力(b选项),却未能有效区分两类动物(两种方法在分类界限上非常接近),但从第3列可以看出我们的方法在分类界限上非常清晰。同时如果将grad-cam与像素空间梯度结合在一起进行可视化处理就能实现分类清晰且具有高分辨率的效果

在这里插入图片描述

如图2所示:Grad-CAM工作原理概述,在输入图片和指定感兴趣类别(例如上图为input和'猫')的基础上,通过带有ReLU激活函数的卷积层进行特征提取操作;这一过程能够进一步支持不同形式图像分类任务的应用。具体而言,在特征提取模块A中(即 Grad-CAM),我们采用一种特殊的梯度引导机制:将目标类别'猫'对应的梯度设为1值(即赋予该类别的权重),而对其余类别设为0值;随后通过反向传播至特征图上(即进行梯度回传),并在此基础上计算出对应区域的重要性得分(即蓝色热力图)。这一过程所得出的第一幅热力图为模型对目标类别'猫'的高度关注区域;而在第二幅热力图中,则是模型对其余类别的关注区域(未被选中的类别)。两幅热力图进行点乘运算的结果则是一个既具有细节又具备类别区分度的最终热力分布图表

要理解Grad-CAM,可以先对比一下CAM。

在这里插入图片描述

在卷积神经网络中,最后一层的重要性不言而喻,因为它承载着丰富的特征信息。因此,在研究该网络的行为时,默认从这一层级开始深入分析。自注意力机制(CAM)的核心思想是去除全连接层后添加一个全局平均池化(GAP)层。具体而言,在 GAP 处理后的结果会生成一组平均值特征向量,并与 softmax 层的每个权重 w 进行内积运算以获得最终的概率分布估计值。随后通过反向传播将这些特征信号还原回原图尺寸以完成完整的推理流程。

在这里插入图片描述

但是它的主要问题是修改了原模型的架构设定,在具体实施上要求将全连接层替换为GAP(全局平均池化)操作,并直接将此特征与softmax输出层相连完成预测过程。这种改动必然导致整个模型架构必须进行重新设计并进行相应的参数优化工作。然而,在之前的思考过程中我一直无法理解为何必须进行这样的改动——因为在现有的设计中似乎只有最后一层的空间特征图(feature map)发挥了实质作用。后来通过查阅相关论文中的等价性证明材料后才了解到这一关键点:实际上该权重矩阵w直接关联到GAP层与softmax输出之间的转换关系中

为了更好地对比和理解Grad-CAM的工作原理及其改进方法,在传统的CAM架构中采用了基于全局平均池化(GAP)的权重计算方式;而在其改进版本中,则采用了更为复杂的特征融合策略。

在这里插入图片描述

在softmax层之前的输出层关于特征图的梯度,在长和宽方向上进行全局平均池化操作后,从而可获得该神经元的重要性评估。

然后也是通过这些权值与特征图进行叠加(如图2所示),然而经过relu处理后,仅专注于对类别产生正向影响的区域。

接着证明了Grad-CAM与CAM在理论上的等价,并且比CAM更加泛化。

Evaluating Localization Ability of Grad-CAM
1.弱监督定位

在这里插入图片描述

三种不同的网络,第1列是分类效果,第2列是定位效果。

科普一下相关内容;
对于每个图片而言,在判断其分类时仅依据其概率最高的结果是否为正确标签计算Top-1误差率;
在评估时检查预测结果是否包含正确的标签计算Top-5误差率。

2.弱监督图像分割

在这里插入图片描述

将Grad-CAM作为一种应用于SEC的弱监督定位机制,在基于VGG16架构的网络中实现,并通过实验验证其iou值作为一个评估指标较之于CAM方法具有显著提升效果

Pointing Game
该方法基于对不同可视化工具在目标定位方面的辨别能力进行设计,在热图中提取最大作用点位置,并判断其是否位于标注过的一个实例中。通过命中率进行评估。实验结果表明,Grad-CAM显著优于c-MWP(70.58% vs. 60.30%)。

5 Evaluating Visualizations
1.类别区分性
看表2的第1列结果就可以了~

2.可信赖度

在这里插入图片描述

采用两种方法促进反向传播机制,并与guide-grad-cam技术相结合。进而咨询相关领域专家以确定哪种方法更为可靠。结果如表2所示,则能够明确该技术是否适合用于评估模型的可靠性。

在这里插入图片描述

3.忠诚度 指的是该方法对模型的忠诚度 通过图像遮挡技术的应用 CNN在识别准确率方面的表现会发生相应的变化 与此同时 相应的可视化结果也会 进一步分析后发现 在面对图像被遮挡时 grad-CAM算法在相关性评估方面表现更为突出 观察表2中的第三列数据

6.Diagnosing image classification CNNs with Grad-CAM

在这里插入图片描述

这个图好懂,看图就知道了。

在这里插入图片描述

这个图表表明,在某些情况下为了干扰分类效果的表现,通常会加入噪声处理。然而难以直观观察到这种影响。例如(b)图所示的情况。即使某个类别的概率极低,在(c)和(d)中也能清晰展示。此外,在前两名的图表中进行可视化分析能够更好地揭示其影响。能够观察到这些特征主要集中在背景区域。

在这里插入图片描述

这个图展示的数据平衡性与非平衡性会使得模型在识别过程中出现一些问题。其中医生群体主要以男性为主,在非平衡数据下的模型可能将第2列误判为护士。

7 Textual Explanations with Grad-CAM

在这里插入图片描述

在介绍实验结果时,默认分为前两段展示成功实例,并最后一段展示失败案例。这一内容旨在阐述文本解释方法的工作原理。其中这些术语是指每个神经元所呈现的形象特征,在对某类图像进行分类任务时输出权重最高的5个图像以及权重最低的5个图像,并通过文本形式解读为何模型会将该图像归类为特定类别的原因。

**8 Grad-CAM for

Image Captioning

and VQA**
VQA是智能问答的缩写

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

对于图形的理解也达到了一定的深度,并且这一方法已经被广泛应用于多个领域。不可否认的是,在撰写过程中耗时较长,并对这一技术进行了详细的阐述。

然而重点关注这一关键点就足够了。这种方法特别擅长于类别区分性 ,从而可以在这些领域得到广泛应用。

这篇文章就到这里啦~

今天又是开心的一天,每天都是~

全部评论 (0)

还没有任何评论哟~