Advertisement

Flow -Guided feature Aggregation for video object detection

阅读量:

该研究是对deep-featureflow的一个理论扩展,在深入分析前后帧信息的基础上提出了新的特征增强方法

基于流引导的特征聚合

这种方法对于ImageNet VID中的strong single-frame baselines具有显著改进效果

  1. Introduction

针对于still image检测器对于快速移动物体的表现较差问题我们进行了深入分析并提出了一种全新的解决方案

  • Flow-guided warping.

给定一帧{I_i}及其相邻帧{I_j}所形成的光流场M_{i→j}=F(I_i, I_j)可以通过光流网络F参与FlowNet[8]进行估计。
相邻帧的特征图被映射到当前帧上。根据光流映射函数定义为:
f_{i←j}=W(f_j, f_j, M_{i→j})=W(f_j^f_j, M_{i→j})
其中W是一个双线性映射函数,在所有位置上对每个通道进行应用。f_{i← j}表示从第jj个特征图映射到第ii个特征图的过程。

  • Feature aggregation.

在完成feature warping之后,在后续处理中我们采用了一种基于邻域信息的方法来生成目标区域的描述向量。具体而言,在邻域范围内通过加权平均的方式融合多个局部区域的信息表示,并通过自适应的方式对各区域间的相似性进行建模和归一化处理。在此过程中我们需要解决的问题是:如何有效地将多个高维向量映射到一个低维的空间中同时保证每个样本点与其邻居点之间的关系得以被准确捕捉到

其中kk代表相邻帧的数量,默认值为10。上式与传统的attention机制相似,在memory buffer中对不同特征分别施加不同的权重系数。经过检测子网络的处理后得到最终结果yiyi=Ndet()。

在这里插入图片描述
在这里插入图片描述

Adaptive weights are employed to signify the significance of each buffer frame [Ii−k, Ii−k,…, Ii+k] relative to Ii at every spatial position. Notably, at position PP, if the warping-features fj→ifj→i and fi are highly similar, this frame will be assigned a high weight; conversely, it will receive a low weight if they are dissimilar. To measure the similarity between warping-features and current frame-derived features, we utilize a cosine similarity matrix. Additionally, instead of directly employing the convolutional features Nfeat(i), we opt for a small fully convolutional network to map fi and fj→ifj→i into new embeddings for assessing their similarity. Consequently, we estimate the weights as follows:

论文笔记

全部评论 (0)

还没有任何评论哟~