Advertisement

(CVPR 2021)Self-supervised Video Representation Learning by Context and MotionDecoupling

阅读量:

当前在video understanding领域中存在一个关于context bias的问题。具体而言包括两个核心模块:一是上下文匹配(context matching),二是运动预测(motion prediction)。该问题主要表现为网络在进行动作判断时,并未依据运动信息(action motion)而是基于背景静态场景(background static scene)。为此,我们提出了一种预设任务——通过对比学习压缩视频的关键帧(key frame)与运动向量(motion vector),从而有效地消除这一context bias问题。

主要框架:

context matching: 通过将关键帧与视频剪辑抽取出来的特征进行对比学习, 因为其维度存在差异, 所以需先经过全局池化处理以及MLP网络处理, 使其达到相同的维度水平, 最后完成对比学习过程.

Motion Prediction:基于当前视频片段, 用于预测后续帧之间的运动向量. 具体而言, 采用了基于transformer模型的方法, 用于提取特征表示, 并通过对比学习算法优化模型参数. 作者指出, 传统的做法通常是估计当前帧与下一帧之间的运动信息(即运动估计问题), 这种做法通常会提取低层特征如光流信息. 然而, 在高阶特征提取方面仍需进一步探索

损失函数如下所示:

context matching:

motion prediction:

消融实验:

实验结果:

action recognition

video retrival

结论:

全部评论 (0)

还没有任何评论哟~