Advertisement

Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition论文翻译

阅读量:

Constructing a Discriminatory Filter Set inside the CNN for Fine-grained Recognition

细粒度分类在图像分类领域长期面临诸多挑战。近年来基于深度学习的图像分类技术发展极为迅速,在此背景下细粒度分类领域涌现了众多优秀的解决方案。传统的多阶段模型主要通过引入辅助网络来整合位置信息至主分类网络中,并采用复杂的特征编码机制获取高阶统计特性;而最新的端到端模型则从原理上强化了中间层次卷积神经网络(mid_level CNN)的学习能力。作者通过实验研究证实:在CNN架构中强化mid_level特征学习能够显著提升识别性能,并设计了一种新型卷积滤镜库以捕获具有辨别性的局部区域(patch),无需额外的部分标注或边界框注释。这种设计突破性地将部分识别与整体识别融为一体。
目前细粒度分割方法主要可分为两类:基于定位-类别划分(Localization-classification)子网络体系和端到端特征编码体系。
第一类体系由定位网络辅助下的类别划分网络构成;其核心思想是先定位再判别;第一步要求各部分区域(如鸟类头部与身体)能够在类别间共享语义表征;尽管这有助于提高部分表示的一致性;但为了提高判别能力;第二步需要使各部分区域表征随类别变化而发生显著差异;这种权衡关系不仅体现在算法设计上;还需通过交替优化定位与判别模块实现最终收敛;然而这种复杂化的联合优化过程往往会降低模型泛化性能。
第二类体系则直接从卷积特征映射入手;通过对高阶统计特性的编码增强中间层次CNN的学习能力。相比于定位-类别划分子网络体系;尽管端到端编码体系的有效性得到了验证;但在非严格视觉领域与严格视觉领域的性能表现仍存在较大差异;此外其可解释性也不及前者。
本文深入探讨了两类端到端架构所面临的核心问题及改进方案。作者的主要贡献在于提出了一种无需额外标注就能直接从CNN架构中提取有区分力mid_level patch的设计方法:该方法突破了传统需同时解决定位与识别问题的限制;仅需关注类别间的可辨识区域表征即可实现高效的类别划分任务。

在这里插入图片描述

该系统采用了一种创新的设计思路:将单像素过滤器视为小型路径探测器,并构建了一种基于局部分析结果与整体特征特征是非对称多支流架构的新框架;通过引入一种基于非随机层初始化机制的滤波器监督方法来激活具有鉴别能力的道路探测器

在这里插入图片描述

我们可以将单通道卷积核视为一种局部特征探测器。具体而言,在第一张图中,当我们对输入图像执行一系列卷积和池化操作后会生成大小为C_{H\times W}的特征图,在每个C通道上都会记录对应位置在原始图像中的一小块区域信息。当我们在特征空间中学习一个1\times 1滤波器时,在特定判别区域上表现出高响应度;利用此滤波器与整个特征映射进行卷积操作可以生成置信度图(heatmap)。只要在整个置信度图中找到最大值的位置即可确定一个判别区域对应的局部特征映射。为了满足这一目标的需求第一条是由于细粒度分类任务中的区分区域通常具有高度精确的空间定位特性因此我们需要设计相对较小的感受野即每个C_{1\times 1}通道上的表示仅对应原始图像中一小块局部信息;第二条则是基于准确的局部特征定位需求在原生图像中相邻感受野之间的步长设置应当尽可能的小。

网络的核心组成专注于实现辨别性patch学习的任务是一个1×1维度的卷积层后接一个GMP(Global Max-Pooling)层。随后这个组件引导出一个判别patch流(P-Stream),该流由完全连接层与softmax激活函数构成。另一方面为了识别更细致的类别特征另一个分支则包含了额外的卷积操作以及全连接结构其中在第一个全连接层中嵌入了全局信息编码机制通过线性融合整个特征图从而聚焦于整体图像特性这一特点使得其被称为G-Stream

在这里插入图片描述

在所讨论的网络体系结构中 存在于P-Stream中的11个卷积层无法确保以满足特定需求识别补丁的情况 为了使框架能够学习类特定的判别性补码检测器 并特别关注跨通道池层和Softmax损失层的影响 以便实现监控这11个滤波器 如图3所示 在图2整体架构(侧分支部分)中包含这一配置 在实际应用中发现 在经过过滤器监督的情况下进行随机初始化可能会导致系统收敛至较差局部极小值的情况 一种简陋的方法可能是让跨通道池输出向量接近全零或某种一致性模式从而减少训练过程中的边损失 为了缓解这一问题 作者提出了非随机初始化方法

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~