Video Object Detection with an Aligned Spatial-Temporal Memory
主要贡献:开发出了一个新的时空记忆网络STMN并将其应用于视频目标检测任务中。该网络通过将预先训练好的图像分类权重整合至memory以及网络内对齐模块中,在时间维度上实现了对memory的空间配准功能。该模块相较于现有技术,在长序列帧上的信息聚合能力更强
方法
方法

如图所示,在处理长度为L的视频序列时

,其包含了之前t-1帧的所有信息。STMM根据这两个更新当前时刻的

,为了抓住前后帧的信息,使用两个STMM,一个方向一个,即

和

该系统通过将多个模块的数据进行整合与优化处理,在有限资源下实现了计算能力的提升,并生成了一个临时优化后的内存结构M。该内存块专门用于存储空间相关的元数据信息,并在后续的卷积操作与全连接层处理中完成分类任务以及边界定位功能。
STMM
计算公式如下:

_表示卷积,

代表权重的整体上的优化策略。rt门表示之前的状态Mt-1有多少信息被遗忘从而用于生成候选记忆

,Zt门表示需要结合多少先前的Mt-1和

0,1
用于生成Mt。在生成过程中需先对Mt-1和Ft施加放射变换以生成rt和zt,并随后应用ReLu激活函数。BN_是针对标准BatchNorm实施两次变换以确保输入信号落在区间【0,1

-1,1
-1,1
与现有方法的主要区别在于,在初始化STMN时采用了RFCN基于图像检测器的权重方案。具体而言,(1)为了提高性能和稳定性,将ConvGRU中的sigmoid和tanh激活函数替换为ReLU激活函数;这一改动解决了由于ConvGRU采用tanh激活函数导致其输出值域为[-1, 1]与预训练卷积层输入范围不匹配的问题。(2)而针对公式(1)-(3),我们采用了交错卷积层参数作为初始化依据,而非随机赋值。
时空记忆对齐:
因为目标在视频序列中呈现动态状态,在连续帧之间其空间特征无法对齐;因此必须通过跨帧对齐技术来解决这一问题。若无法实现对齐,则会观察到图中第四行所示的现象;为了应对这一挑战, 本研究引入了MatchTrans组件.

该算法通过从F_t网格中选取(x,y)单元及其邻近区域内的特征单元来分析与前一时间步(即F_{t-1})相同位置单元之间的关联。

将不对齐的Mt-1转换成对齐的Mt-1‘的公式如下:


这个方法和光流相比更加有效,劫争了储存光流的计算时间和空间。
实现细节:
基于ResNet-101构建的r-FCN网络,在完成ImageNet DET数据集上的模型训练后,并结合权重迁移策略对STMN检测器进行初始化配置。随后,在ImageNet VID数据集上进一步优化模型参数并完成微调优化过程。实验中设定序列长度为7
结果
在基于ResNet-101的静态图片检测领域中表现卓越

