Advertisement

【CV+DL学习路01】CNN可视化学习1——Learning Deep Features for Discriminative Localization

阅读量:

小白同学近期开始深入学习计算机视觉领域的知识,在一位老师的意外引导下,他开始了对CNN可视化技术的研究。从他阅读的第一篇相关论文开始,到如今大约三周的时间内,他一直坚持写下自己的学习笔记,以便日后能够更好地回顾和学习这些知识。

论文一、提取深度表示以实现精确定位CVPR 2016可在该链接找到论文

这篇关于论文翻译参考的文章,在网上还有许多相关的阅读资料。其中包含:

  • 第一篇阅读笔记
  • 第二篇阅读笔记
  • 第三篇阅读笔记
    此外还有:
  • 再一篇值得推荐的文章
  • 最后一篇精彩分享

这些内容仅限于论文的阅读笔记范畴,并包含两篇文章:一篇是关于利用神经网络内部表征可视化 class-specific image regions 的研究;另一篇则是使用 tensorflow 实现了 Class Activation Map 用于分类目标定位的技术

作者的源代码基于Caffe框架和Matlab实现,在此您可以找到完整的代码:源码在这儿

1.介绍

本文重点阐述了通过引入全局平均池化层GAP来增强CNN网络的定位效果。文中所提出的是一种端到端的学习框架,在无需额外操作的情况下即可完成目标物体的检测。尽管卷积神经网络在提取高阶特征方面表现优异,但在进行最终分类时会牺牲定位精度。

研究者对基于CNN提取的特征进行了Class Activation Mapping处理。这一方法不仅使网络能够实现分类任务,并且能够精确定位每张图像的具体分类区域。

2.Class Activation Mapping

CAM主要采用GAP(即Global Average Pooling)来进行操作。而这里的GAP并非我们提出的新方法,本文的主要创新在于精确利用该技术定位物体位置。

通常地,在卷积神经网络中,在某个模块之后通常跟着的是一个全局平均池化(GAP)模块,并随后紧跟一个softmax层。具体而言,在GAP操作中会计算该模型某一层所有单元对应的特征图(即featuremaps)对应区域取平均值的操作。将这些均值通过加权求和的方式结合起来以生成最终结果的过程中所用到的关键参数即构成分类注意力机制(CAM)。因此,在计算该层特征图各区域均值的基础上进行加权求和就可以得到CAM这一重要指标。

通过GAP生成CAM的过程如图:

给定输入图G=(V,E),其中V表示图中的节点集合,E表示边集合.我们用fk(x,y)表示卷积层在位置(x,y)处单元k的空间激活值.随后,经过全局平均池化后得到F_k=∑{x,y}f_k(x,y).进而对每个类别c,将输入到softmax层的结果S_c=∑kw{c,k}F_k,其中w{c,k}表示单元k对应类别c的关注权重.最终输出P_c由Softmax函数计算得到:P_c=exp(S_c)/∑_c exp(S_c).这里我们假设忽略了偏置项b,因为它们几乎不会影响分类性能.

把Fk=∑x,yfk(x,y)带入Sc,得

我们用Mc定义类别c的CAM,则空间每个元素为

S_c = \sum_{x,y} M_c(x,y), 因此在计算每个类别c的空间权重S_c时, M_c(x,y)直接反映了该模型参数对于分类c的重要性.

从概念上讲,CAM是一种通过不同空间区域进行线性加权叠加显示的技术.通过将类激活图的比例缩放至与输入图片尺寸一致, 可以清晰识别出与特定类别高度相关的区域.

下图列举了一些CAM输出示例,在各个类别中具有区分性的区域已经进行了突出显示。该模型通过不同的类别参数c生成了CAM图像的不同表现形式。在同一幅图像中,各分类器对应区别的区域具有差异性。

3.实验部分

研究者基于AlexNet、VGGnet以及GoogLeNet等主流神经网络架构,在其全连接层基础上进行了一系列优化与改进工作。具体而言,在各网络中去除部分卷积层后,在剩余结构中新增了一个3×3尺寸的卷积层(步长设置为1),并在其边界处填充足够的零以维持计算量。随后通过引入全局平均池化操作并对输出进行softmax处理后得到了三种新型神经网络模型:AlexNet-GAP、VGGnet-GAP以及GoogLeNet-GAP

该实验的主要内容涉及分类识别任务、位置检测以及鸟类亚种别特征的深入研究。通过分析CAM方法是否能够实现对更高层次生物类别特征的识别,并评估不同卷积层在特征提取过程中的作用

4.总结

该文章借助CAM技术实现了对图片的整体处理和分类目标的确切识别。这一技术为弱监督学习提供了重要参考。然而该方法存在主要缺陷:它仅能提取出物体某些关键特征区域例如,在狗类动物中主要关注头部等部位。这种方法虽然有助于提升定位精度但可能导致分类准确性的下降

这篇文章的实验部分写得非常好,对比非常全面。

在研读笔记的过程中学习论文内容后,我又开始自主探索寻找相关论文.初次接触论文查找困难重重……经过一番努力搜索后仍难以找到明确的方向.并参考了这篇可视化阅读笔记(可视化阅读笔记4)后顺利找到了另外两篇值得深入学习的论文.

全部评论 (0)

还没有任何评论哟~