Advertisement

TriDet: Temporal Action Detection with Relative Boundary Modeling——阅读笔记

阅读量:

code:https://github.com/dingfengshi/TriDet

摘要:

在本文中,提出了一个一阶段的框架TriDet的时间动作检测。现有的方法往往遭受不精确的边界预测 ,由于在视频中的模糊的动作边界。为了缓解这个问题,我们提出了一种新的三叉戟头模型的行动边界,通过估计的相对概率分布的边界。在TriDet的特征金字塔中,我们提出了一个有效的可扩展粒度感知(SGP)层 ,以减轻在视频特征中发生的自注意力的秩损失问题,并在不同的时间粒度上聚合信息。得益于三叉戟头和基于SGP的特征金字塔,TriDet在三个具有挑战性的基准测试中实现了最先进的性能,与以前的方法相比,计算成本更低。

动机:

时间动作检测(Temporal Action Detection,简称TAD)是从未经裁剪的视频中检测出所有开始和结束时刻以及相应的动作类别。时间动作检测现有的方法大致可分为两大类,即两阶段法和一阶段法。两阶段方法将检测过程分为两个阶段:建议生成和建议分类。然而,两阶段方法存在高复杂性问题,并且不能以端到端的方式进行训练。单阶段方法使用单个网络进行定位和分类。一些以前的工作使用卷积网络(CNN)构建这种分层架构。然而,基于CNN的方法和最新的方法之间仍然存在性能差距。

与对象检测中对象和背景之间通常存在清晰边界的情况不同,视频中的动作边界可能是模糊的。这一点的具体表现是,边界周围的时刻(即视频特征序列中的时间位置)具有来自分类器的相对较高的预测响应值。一些先前的工作尝试**(Segment-level)基于预测时间段的全局特征来定位边界,这可能会忽略每个时刻的详细信息** 。作为另一项工作,他们**(Instant-level)直接回归基于单个时刻的边界,可能具有一些其他特征,这些特征不考虑边界周围相邻时刻之间的关系(例如相对概率)** 。如何有效地利用边界信息 仍然是一个悬而未决的问题。为了便于定位学习,我们认为视频中时间特征的相对响应强度可以减轻视频特征复杂性的影响,提高定位精度。

解决方法:

出于这个动机,我们提出了一个单阶段 的动作检测器与一个新的检测头命名为三叉戟头量身定制的动作边界定位。具体而言,不是直接预测基于中心点特征的边界偏移,而是**(ours)提出的三叉戟头通过估计的边界相对概率分布来建模动作边界。然后基于相邻位置的预期值来计算边界偏移** 。除了三叉戟头,在这项工作中,建议的动作检测器由一个骨干网络和一个功能金字塔。最近的递归方法采用基于变换的特征金字塔,并显示出有前途的性能。

然而,视频骨干的视频特征往往在片段之间表现出高度相似性,这会被SA进一步恶化,导致排名损失问题。此外,SA还引起显著的计算开销。幸运的是,我们发现之前基于transformer的层()的成功主要依赖于它们的宏观架构 ,即规范化层和前馈网络(FFN)如何连接,而不是自我注意机制。因此,我们提出了一个有效的基于卷积的层,称为Scalable-Granularity Perception(SGP)层,以减轻上述两个自我注意力的问题。SGP包括两个主要分支,用于增加每个时刻的特征的区分度,并利用不同尺度的感受野捕获时间信息 。由此产生的动作检测器被称为TriDet。

模型:

首先使用预先训练的动作分类网络提取视频特征,在此之后构建SGP特征金字塔已处理具有各种时间长度的动作。

三叉戟头由三个分支预测的相对分布来估计边界偏移——起始边界、结束边界、中心偏移。

具有SGP层的功能金字塔:

特征金字塔是通过最大池化(步幅为2)对视频骨干网络的输出特征进行多次下采样来获得的,然后使用SGP层处理每个金字塔级别的特征,以增强具有不同时间范围的特征之间的交互

SA主要遇到两个问题:跨时间维度的秩损失问题和其高计算开销。

限制1:秩损失问题。秩损失问题的出现是因为自注意中的概率矩阵(即softmax(QKT))为非负且每行之和为1,表明SA的输出是值特征V的凸组合。

限制2:计算复杂度高。自注意中的密集成对计算(即时特征之间)带来了很高的计算开销,因此降低了推理速度。

提出了一个可扩展粒度感知(SGP)层,以有效地捕捉动作信息和抑制秩损失。Transformer层和SGP层之间的主要区别是用全卷积模块SGP替换了自注意模块。连续层归一化(LN)更改为组归一化(GN)

SGP包含两个主要分支:瞬时级分支和窗口级分支。在瞬间级分支中,我们的目标是通过视频级平均特征来扩大动作和非动作瞬间之间的特征距离,从而增加动作和非动作瞬间之间的特征区分度。窗口级分支被设计为从更宽的感受野引入语义内容。其中,分支用于帮助动态地关注哪个尺度的特征。其中FC和Convw表示时间维度上的全连接层和一维深度卷积层,窗口大小为w,k是旨在捕获更大粒度的时间信息的可缩放因子。

三叉戟头的相对边界建模:

关于检测头,一些现有的方法直接回归特征的每个时刻的动作的时间长度,并用边界特征进行细化,或者简单地预测动作性得分(指示动作的概率)。这些简单的策略在实践中遇到了一个问题:由于视频中动作的内在属性,边界预测不精确。也就是说,动作的边界通常不明显,不像对象检测中的对象的边界。

三叉戟头在这项工作中提出了面向边界的三叉戟头精确定位的动作边界的基础上的相对边界建模 ,即考虑在一定时期内的特征之间的关系,并获得在该时期内的每个时刻的相对概率是一个边界

三叉戟头由三个组件组成:开始头、结束头和中心偏移头,它们分别用于定位动作的开始边界、结束边界和时间中心。三叉戟头可以与探测器进行端到端 的训练。具体地,给定从特征金字塔输出的特征序列F,首先从三个分支获得三个特征序列(即Fs,Fe和Fc),其中B是用于边界预测的bin数,Fs和Fe分别表征每个时刻的响应值作为动作的起点或终点。此外,中心偏置头旨在估计两个条件分布P(bst| t)和P(bet| t)。它们表示当时刻t是动作的中点时,每个时刻(在其一组bin中)作为边界的概率。然后,我们通过结合边界头和中心偏移头的输出来建模边界距离,时刻t和动作实例的开始时刻dst之间的距离由相邻bin集合的期望给出。

总结:

在本文中,我们的目标是改进的时间动作检测任务,一个简单的一级卷积为基础的框架TriDet与相对边界建模。在THUMOS 14,HACS,EPICKITCHEN和ActivityNet上进行的实验表明,我们的方法具有很高的泛化能力,在前三个数据集上达到了最先进的性能,并在ActivityNet上取得了相当的结果。进行了广泛的消融研究,以验证每个拟议组件的有效性。

全部评论 (0)

还没有任何评论哟~