《Diversity Regularized Spatiotemporal Attention for Video-based Person Re-identification》论文笔记

多元化规范的 时空关注 用于基于视频的行人重识别
时空注意力模型:自动的发现那些具有判别性区域的身体部分
该网络通过多组空间注意力机制进行处理,并采用多种正则化策略以增强各组机制间的多样性。从而让各组空间注意力机制分别专注于不同的身体部位进行特征提取和表示学习。
通过构建多组空间注意力机制来定位这些关键区域,并利用时间序列分析方法对这些特征进行加权整合以提升准确性
一、Restricted Random Sampling
类似Temporal segment network的原理
该方法能够利用整个视频序列的视觉信息、避免帧与帧之间过于冗余
作者将视频序列按照相等时间分为N个块,每个块中随机选择1张图片
在实验过程中,作者指出N的值为6;这相当于从视频序列中选择了六张图片(其中火星库仅包含六张图片)。
当全部使用所有帧时,我们可能会受到很多质量不好的图片(如遮挡和光照方面)的影响。
因此,在每个序列中,作者仅选择了若干帧,并通过空间注意力机制达成空间对齐;随后采用了时序注意力模型来推导融合后的特征表达
二、Multiple Spatial Attention Models
采用多组空间注意力机制进行特征提取,在期望各空间注意力机制识别出各自具有判别性的部位的同时要求各空间注意力机制保持识别出的判别区域具有一致性特征;基于深度学习框架中的ResNet-50架构设计的深度学习方法。
对每张图片

,通过注意力权值加权平均可以得到K个空间门视觉特征
每个关键点检测结果对应于输入图片中的一个显著性区域;作者通过加权平均计算得到的区域
这种方案在获取具体位置信息方面具有挑战性,并且从作者的观点来看该方法在对齐区域的表现并不精确
因此作者采用了类似的方法进行目标识别技术,并引入了一个强化变量进行优化
三、Diversity Regularization
不同的注意力模型并没有约束,他们可能产生同样的判别性区域
对于
(表示第k个空间注意力模型在图片

上面的感受野区域的权值)
该方法可借助KL散度评估图像感受野多样性的一种有效途径

作为K个空间注意力模型生成的感受野区域。

作者实验证明经过softmax函数以及log操作,会导致训练很不稳定。
为了使多样化的空间注意力机制能够关注不同重要区域的位置分布,在此研究中作者通过计算得出两个注意力模型在各自关注层面上所对应的定位结果

的的重叠区域。
文章使用海林格距离计算

的相似性、为了获得感受野的多样性,需要最大化

的距离
四、Temporal Attention
五、Re-Identification Loss
对于分类问题而言,在这项研究中作者CAIY选择性地应用了基于在线实例区分损失函数(OIM)
因为一般的RID使用多类的softmax作为目标损失
在Batch中所包含的样本数目少于训练过程中所涉及的全部训练样本总数时,在网络更新过程中可能会导致一定的误差
在OIM中,使用了查找表来存储所有训练个体的特征
在前向传播过程中,在其分类概率计算过程中,一批样本数据会在其训练过程中逐一比对所有样例特征。
