Self-supervised and unsupervised learning for video
目录
ActBERT: Learning Global-Local Video-Text Representations(cvpr2020)
自监督学习中采用基于一致性的正则化技术来实现时空数据增强以支持动作识别(STCR)方法
Temporal Cycle-Consistency Learning(Google Brain)
Unsupervised leaning of visual representation using videos
Learning Video Object Segmentation from Unlabeled Videos
Self-supervised video representation learning leveraging space-time cubic frameworks
Other methods
ActBERT: Learning Global-Local Video-Text Representations(cvpr2020)
背景:
在做菜教学视频中, 制作人员会说出"开始切胡萝卜"这样的话语, 而画面中人物也正在进行"切胡萝卜"的动作.这种自然存在的视觉动作对应关系, 是构建视频文字自监督学习数据集的重要特征.其中的文字描述可以通过自动语音识别技术(ASR)从视频画面或创作者提供的字幕中提取.这样一来, 就形成了成对的视频文字学习样本.
为了应对视觉特征难以直接进行分类预测的问题, VideoBERT 采用了层次聚类算法对视觉特征进行离散化处理.这种方法使得每个数据样本都能映射到一个具体的离散化视觉中心点上.
idea:在输入层同时加入全局动作特征与局部区域特征。
论文链接:
改写内容
参考:https://www.jiqizhixin.com/articles/2020-07-20-8
A self-supervised learning approach based on the concept of consistency regularization, which is applied through the application of spatio-temporal data augmentation techniques, is proposed to improve action recognition performance (STCR).
该系统将两条不同来源的信息流划分为两个分支。其中一条分支采用干净的Video作为输入,在另一条分支中则引入了噪声信号进行处理。随后将这两条不同来源的信息流分别通过三维Backbone模型进行深度提取与特征提取,在时空层面以及特征层面确保一致性得到满足。

Temporal Cycle-Consistency Learning(Google Brain)
TCC的核心依据是基于遵循一致循环性原则 的多段视频内容系统分析和匹配。
研究人员在编码器中输入两个待配准的视频以获取相应的嵌入信息,并通过TCC训练过程选择两组视频进行对比学习。其中video1被指定为参考视频,在其框架内提取一帧图像并运用近邻查找方法在目标视频(video2)的空间域中定位出与之最接近的一帧图像。随后将该匹配到的目标图像作为新的输入源,在整个嵌入空间中搜索并确定与之对应的原始图像位置(circle过程)。若经学习后所构建的嵌入空间具备良好的循环一致性特征,则可确认该匹配到的目标图像与初始输入源中的参考图像应为同一张图像。
参考:https://zhuanlan.zhihu.com/p/77771815
Unsupervised leaning of visual representation using videos
idea:通过使用一张图片(patch)三元组{ a; b; c }来训练网络模型,在同一视频内具有相似特征的pair a和b会被选作正样本对,在其他视频中随机采样得到的c patch则作为负样本对输入模型进行训练,并使模型能够提取出A与B之间具有最小特征差异的同时确保A与C之间存在较大的特征差异度。
该论文提出了一种新颖的无监督学习算法...用于从未标注的数据中自动学习视觉特征...该算法建立在深度卷积神经网络的基础上...我们进行了大量实验来验证我们方法的有效性...实验结果表明我们的方法能够在多个基准数据集上达到现有的最佳性能...
Learning Video Object Segmentation from Unlabeled Videos(cvpr2020)
Author: Xiankai Lu...Steven C. H. Hoi
Key: 开发出一种无监督学习方案,并基于四个维度展开特征提取。相当于多个代理任务的集合,具体涵盖帧级(frame)、短时(short-term)、长时(long-term)以及全程视频粒度(whole video granularity)的任务

Self-supervised Video-based Representation Learning Framework: The Role of Space-time 3D Cubic Puzzles
论文:https://arxiv.org/pdf/1811.09795.pdf

Other methods
- Video Generation with GAN
在图像类生成技术中进行借鉴。该系统一般包含两个主要组件:Generator负责生成视频内容... discriminator则用于辨别所生成的内容是否真实。其中Discriminator能够支持其他类型的下游任务
- Video Colorization
给一个灰色的图像,一些参考的彩色图像,让模型学习上色。
Video Future Prediction
给定一组序列后,请模型能够预测后续出现的序列内容;例如这种自监督视频表示学习方法基于奇点识别网络。
