论文阅读: Interpretable and Generalizable Person Re-Identification with Query-Adaptive Convolution
一篇发表于ECCV2020的论文, 主要聚焦于可泛化行人重识别技术。该论文提出了一种名为"查询自适应卷积"的新方法, 以及另一种称为"时序提举"的技术。其中,"查询自适应卷积"这一方法具有显著创新性: 它摒弃了传统的基于高层特征分类与计算损失的方式, 转而聚焦于中间层特征图与class_memory的匹配过程, 这一创新思路显著提升了模型在未知环境下的泛化能力。至于"时序提举"这一技术, 其原理较为直观易懂: 通过评估候选图像与邻近实例之间的相似度变化, 调整其置信度评分。
文章中的关键词
- 具有泛化性的行人重新识别:可泛化行人重识别
- 查找局部联系:找出局部关联
- 跨数据库与跨场景:涉及不同数据库与场景
- 在未见场景、不对齐及观察视角变化的情况下表现得比表征特征更为通用:对于未见场景、不对齐及观察视角变化等情况而言,在泛化能力上优于表征特征
- 作者在论文介绍中阐述得很清楚,并采用了以下关键理解:
关于泛化性我们先从卷积讲起。卷积可以理解为一个模板匹配的过程,它的卷积核是模板这一概念既可以指代预先定义的标准滤波器用于边缘检测(如差分滤波),也可以指代通过学习获得自深度神经网络(如CNN)。卷积核通常是一个局部模板,在执行滑动操作时能够捕捉到图像中各处对该模板的匹配响应情况——当出现较大的响应时,则表明该区域与模板存在较高的局部匹配程度。
因此,在深度卷积神经网络中所学习的目标参数是非常重要的——这些参数决定了网络能够捕获什么样的模式特征。然而,在经过训练后CNN中的卷积核参数会被固定下来,并只能反映训练数据集中的记忆特性。当应用场景与训练数据不一致时(即模型需应对未曾见过的数据模式),CNN固定的滤波器可能无法有效感知这些新的颜色或纹理特征(即其泛化能力会有所欠缺),导致整体性能表现不如预期。
- 作者在论文介绍中阐述得很清楚,并采用了以下关键理解:
关于Query-Adaptive Convolution(查询自适应卷积)的分析
作者采用的方法如下:例如输入图片A(3×256×128),通过ResNet-50模型提取图像特征;随后使用第3层的特征图,并对该层通道进行降维处理后得到image_feat(尺寸为128×16×8)。即为Query-Adaptive Convolution技术而言之:即将提取到的特征视为卷积核(kernel),并堆叠类别记忆库(class_memory)中每个对应的特征图进行卷积操作;实际上即是计算该提取到的特征与类别记忆库中各特征图之间的响应值。
class_memory: 训练过程中, 每个类别都存一张特征图, 并动态更新;
- 初始化时, class_memory中的每个通道均被置零。
- 在训练过程中, class_memory[K]负责存储当前批次的特征图信息; 每次迭代后会自动更新该位置对应的值。
然后, 为了实现image_feat与class_memory[K]之间的匹配关系, 即文章中所提到的局部对应关系; 作者采取了如下步骤: 首先计算特征图在表面显示有16×8=128个像素单位, 同样地, 对应的类记忆块在表面同样呈现出16×8=128个像素单位, 每个像素单元都是一个128维向量. 接下来, 计算每个像素单元与其对应位置向量之间的内积值作为其匹配程度.

将H 和 W合并成一个维度后就是128x128维.

沿着D维度执行矩阵运算后, 计算得到image_feat与class_memory[K]各像素点的响应值. 结果形成另一个128×128的特征图M.
那么如果一共有C个类别,则能够生成一个维度为C×128×128的空间特征矩阵T. 在这个矩阵的基础上,在dim=1方向执行最大池化操作后会计算出image_feat中每个像素点对应的响应值的最大值(result_0),从而获得Cx[−][−][−]尺寸为C×[−][−][−]的结果;而在另一维度上(即dim= [−][−][−])执行最大池化操作后会同样地计算出对应类别的响应最大值(result_0),从而获得[C×[−][−][−]] × ¹ 的空间特征矩阵;最后将这两个结果沿特定轴向连接起来就会形成最终一个维度为C×[−][−][−]的空间特征矩阵.
作者采用256维度张量进行加权求和运算(即经过全连接层计算得到)。计算得到一个score值。经过全连接层处理后, 作者获得C个对应的分数值, 这些分数值表示image_feat与class_memory中每个特征图之间的匹配程度。
此时作者采用了binary_cross_entropy_with_logits计算loss.
Query-Adaptive Convolution有哪些优势呢?相较于常规的classification loss。
该模型在泛化能力方面的表现更为突出?由于在训练过程中特别关注了两幅图片之间的特征图在像素级别的对应关系,并因此使得该模型在提取结构化特征方面的能力得到了显著提升?
