Advertisement

OTAS: Unsupervised Boundary Detection for Object-Centric Temporal Action Segmentation

阅读量:

OTAS: Unsupervised Boundary Detection for Object-Centric Temporal Action Segmentation

1.背景

本文题目为面向对象的时间动作分割的无监督边界检测,以往做无监督事件边界检测,主要分为两大类,一类是聚类,即给每一帧图像分配一个类别标签(1,2,3…)从而实现事件分割;另一类是专注于通过检测指示帧之间最显著变化的边界来生成动作分割,举例如时间自相似矩阵,通过算每一帧之间的余弦相似度来比较帧间差异,从而进行分割,本文用的也是这一类方法。

目前无监督动作分割的研究热点主要是精心设计的聚类或边界选择技术,但该领域中一个关键但研究较少的组成部分位于管道的早期阶段,即,特征提取模块。现有的提取器同等重视视频剪辑中的所有细节。因此,随后的分割可能很容易受到语义上无特征但数值上显著变化的干扰,例如摄像机视角偏移或人类主体的任意大尺度运动。在下图中,我们提供了具体的例子来阐明我们的观察结果。
在这里插入图片描述
可以观察到目前最先进的算法ABD,是会把Crack Egg 和 Spoon视为一个事件,并且会错误把Fry Pancake事件分开。因此可以得出结论:尽管已有的方法具有显著的性能,但它们都只考虑全局视觉特征,这使得它们容易受到语义上微不足道但数字上占主导地位的动作变化的影响。与以往的工作不同,本文重点研究了特征提取模块,认为局部的交互和关系特征对于判断正在进行的动作也是不可或缺的。

2.方法

我们提出了OTAS,这是一种用于基于边界的时间动作分割的无监督框架,不仅考虑全局视觉特征(Global Percption),还考虑局部以对象为中心的特征(Object Attention)。如下图所示,基本思路就是经过全局和局部的特征提取,最后合并进行边界预测。
在这里插入图片描述

(a) Global Percption Module :首先视频帧序列X(i)(帧数只从i-k到i-1) 经过一个Spatial Encoder,实际上就是Res50,作为一个空间特征提取器;然后提取出的特征再进行时间上的特征提取(用transformer),获得具有空间性和时间性的特征,之后再用这个特征去预测生成第i 帧图像,并将预测图像和真实图像进行对比,用MSE损失来衡量预测图像和真实图像的差异,从而训练空间和时间编码器。(实际上就是一个预测下一帧图像模型)

(b)Object Attention Module :唯一的全局特征可能很容易被语义上无特征但数值上显著的变化所干扰,例如人类的任意全身运动。因此,作为对全局特征的辅助,我们设计了一个对象注意模块来捕获对象之间的交互以及它们与人类的交互。对象注意模块利用现成的检测模型来获得交互式区域和对象掩模。交互区域通过人-物体交互模型以产生局部交互特征FI。同时,对象掩模被对象关系模型消耗以生成对象关系特征FR。这两个模块都依赖于帧预测来验证自监督训练
(a)(b)如下图所示
在这里插入图片描述

模块1:Human-Object Interaction Model ,首先整个Video使用 Detection Model 识别视频帧中的人体和物体,并为每个检测到的物体的整体局部区域生成一个掩码。然后使用掩码对视频帧进行裁剪,只保留关注人体-物体交互的局部区域。最后使用Global Percption里的编码器对裁剪后的视频帧进行类似处理,得到局部交互特征。

模块2:Object Relationship Model ,首先整个Video使用 Detection Model 识别视频帧中的人体和物体,并为每个检测到的物体各自生成一个掩码,对每个掩码分配节点,经过图神经网络提取特征。如下图所示。
在这里插入图片描述
具体来说,图像经过目标检测之后是会知道对象的框和对象是什么东西的,即已知图里有man,bowl和bag这三样东西,并且已经被框定,然后这三样东西作为三个节点,节点之间其实是有关系的,这个关系的来源是对象关系查找表,我们通过收集来自Visual Genome数据集的关系来构建对象关系查找表,VG数据集包含了108077张图片,来自于MS-COCO的328000张和YFCC100M的100百万张的交集。这使得VG的标注可以和YFCC以及MS-COCO的分割以及全图caption一起使用。如下图为例,可以观察到woman与in、standi和is behind有直接关系
在这里插入图片描述
“物体关系查找表 (Object Relation Look-up Table)”是通过以下步骤构建的:

数据来源:
Visual Genome 数据集: Visual Genome 是一个包含大量图像描述和物体关系信息的数据集。它包含了 108,077 张图像,每张图像都包含了丰富的物体、属性、关系和场景描述。
COCO 数据集: COCO 是一个用于目标检测和分割的数据集,包含了 80 个类别的物体标注。

关系收集:
语义相似性: 从 Visual Genome 数据集中收集物体之间的语义相似性关系,例如“苹果”和“水果”的关系,“狗”和“动物”的关系等。
交互关系: 从 Visual Genome 数据集中收集物体之间的交互关系,例如“人”和“吃”的关系,“刀”和“切”的关系等。
COCO 数据集: 从 COCO 数据集中收集物体之间的共现关系,即哪些物体经常出现在一起,例如“刀”和“盘子”的关系,“杯子”和“桌子”的关系等。

关系过滤:
共现频率: 只保留在 Visual Genome 数据集中共现频率较高的关系。
语义相关性: 只保留语义上相关的物体之间的关系,例如只保留“人”和“动物”的关系,而忽略“人”和“桌子”的关系。

查找表构建:
格式: 查找表是一个矩阵,其中行代表 Visual Genome 数据集中的物体,列代表 COCO 数据集中的物体。
内容: 矩阵的元素表示两个物体之间的关系强度,例如可以使用 0 和 1 表示是否存在关系,或者使用一个实数值表示关系的强弱。

在知道了物体之间是否有关系后,就可以用图神经网络去提取特征了,具体来说,图神经网络主要步骤如下图所示,最后提取出物体与物体之间关系的特征。
在这里插入图片描述
在这里插入图片描述

事件边界帧选择

经过上述的特征提取方法后,进行事件边界预测,得出三种误差曲线,首先我们从三种曲线的时间特征差异序列的局部(局部选择的范围是15帧)最大值中选择边界。我们设计了一个专门的投票机制来确定最终的边界预测。概括地说,我们接受两种类型的边界:a)由所有三个候选集同意的边界;或b)时间特征差异显著的边界。
a) :所有三个候选集同意的边界,代码里给的范围是15帧。即15帧内,如果三个预测里都涵盖事件边界,就把这三个事件边界中置信度得分最高的一个作为边界帧。
b) :时间特征差异显著的边界,即前面已经选了N个事件边界帧,现有一个预测的待候选边界帧,但在其他两个预测里是没有的(不满足a),但该帧的置信度分数是前一个边界帧的两倍及以上,它也会被选为边界帧。置信度的计算公式如下:其中β是可调的。
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~