Multi-Attention Transformer for Naturalistic Driving Action Recognition

标题:用于自然驾驶行为识别的多注意力Transformer
该研究提出了一种基于多注意力机制的Transformer模型,在自然驾驶场景下实现了对驾驶员动作行为的准确识别与预测。该模型在CVPRW_2023_paper.pdf中进行了详细说明,并展示了其在实际测试中的优异性能。

The research paper, identified by the URL https://openaccess.thecvf.com/content/CVPR2023W/AICity/papers/Dong_Multi-Attention_Transformer_for_Naturalistic_Driving_Action_Recognition_CVPRW_2023_paper.pdf, presents an innovative approach to naturalistic driving action recognition through the development of a multi-attention transformer model.
源码链接:[https://github.com/wolfworld6/Aicity2023-Track3

https://github.com/wolfworld6/AI City 2023 - Track 3
发表:CVPR-2023
目录
摘要
1. 简介
2. 方法
2.1 数据预处理
2.2 特征提取
2.3 时间动作定位
2.4 时间校正
3. 实验
3.1 训练
3.1.1 特征提取模型
3.1.2 时间动作定位模型
3.2 结果
3.2.1 数据预处理结果
3.2.2 多视角模型结果
3.2.3 后视图模型结果
4. 结论
读后总结
摘要
本文旨在确定未剪辑视频中每个动作的起始与结束时间。为此目的,我们提出了一种多注意力Transformer架构来解决这一问题。传统的做法是利用固定长度的时间窗来提取特征这导致仅能捕捉固定时间段内的动作信息。然而,在实际场景中视频中的上下文信息往往具有时序特性因此单一的时间窗可能无法全面反映这些特性。为此我们设计并引入了多注意力机制通过融合局部与全局注意力机制能够更灵活地捕捉不同层次的时间关系从而提升模型性能的基础上基于VideoMAE模型提取特征的方法在验证集A2上的准确率为66.34%随后,在此基础上引入时间校正机制进一步优化了模型性能,在验证集A2数据集上取得了更优的结果即准确率达到67.23%最终,在AI City Challenge 2023的Track 3 A2数据集上获得了第三名位置我们的代码可在以下地址获取:https://github.com/wolfworld6/Aicity2023-Track3
1. 简介
分心驾驶很可能构成严重威胁。当前阶段而言, 自然驾驶技术与计算机视觉领域的快速发展, 已经迫切需求一种新的解决方案来消除或减少此类危险行为的发生概率。自然驾驶研究对于深入理解驾驶员行为机制具有重要意义, 它们能够帮助我们全面了解车内驾驶员的行为模式, 并详细分析他们在不同情境下的注意力状态, 这对于降低分心驾驶的发生率具有重要意义。而在AI City Challenge这一赛事中, 集装箱赛道三则聚焦于车内场景下的驾驶员动作识别问题, 参赛者则需开发出能够识别并标记出各类动作起始与结束的时间点的技术方案。
此任务可被视为视频理解领域的时间动作定位(TAL)问题。其中的视频通常为长时长且未经过编辑的视频;然而每个单独动作的时间间隔相对较短。在时间动作定位算法中一种直观的方法是预先设定不同时间段长度的滑动窗口并在其上滑动一种直观的方法是预先设定不同时间段长度的滑动窗口并对其进行遍历分析这种方法已被广泛应用于多个研究方向例如S-CNN [17] TURN [6] 和 CBR [5]等模型均采用了类似的滑动窗口策略来处理时间间隔问题随后研究者们基于候选时间间隔的概念提出了另一种思路即从候选时间段的角度出发生成可能包含特定动作的行为片段随后通过分析候选时间段内的特征来判断具体行为类型并对其进行边界校正这种方法已被用于R-C3D [19] TAL-Net [3] 等模型中此外单阶段目标检测的理念也可应用于时间动作定位过程如SSAD [12] 和 GTAN [15]等模型均采用了类似策略但在实际应用中由于Transformer模型对大量数据的需求较高其直接应用往往会导致性能瓶颈特别是在处理长序列数据时这一问题更加突出为此Gedas Bertasius等人 [1] 提出了一个可分离时空注意力机制该方法成功将Transformer模型引入到长序列数据的理解与分析领域其次研究者们发现仅采用固定大小的空间和时空中频块难以充分捕捉复杂行为特征因此提出了一种自适应特征提取方法即结合外部块与内部块特征以丰富空间时频特征从而提升模型性能
基于这一观察的基础上
2. 方法
2.1 数据预处理
在视频中进行人体检测后并截取每帧画面;为了确保视频的整体稳定状态;我们对每个画面分别进行人体检测;并选取所有检测结果中最大的区域作为统一的标准;从而防止由于各帧尺寸差异导致的画面抖动;裁剪过程保留了与人体相关的关键信息;同时去除了非关键的信息部分
2.2 特征提取
我们对多个视频表示模型以及A1视频的三个视角展开了多项实验研究。基于表1中的结果显示VideoMAE [18] 显示出了更优的表现,在本文中我们选择该方法对其后视与仪表盘视角进行特征提取分析。本研究采用了从多个数据集预训练得到的公共权重参数,并在此基础上对A1数据集进行了精细微调优化。具体所采用的权重参数信息详见表2


2.3 时间动作定位
Actionformer [20] 整合了多尺度特征提取与位置注意力机制,并通过轻量级解码器对每个时间点进行分类以推导出动作的时间范围。如图1所示,在改进的基础架构上构建了一个多注意力Transformer模型体系,在建模不同视频片段间的关系的同时也能捕捉到整体片段内部的具体信息。

图1. 模型架构概述# 图1. 模型架构概述
我们采用基于Transformer架构的方法用于实现动作分类任务的同时推断各时间点的动作边界。
在特征提取环节,在视频剪辑抽取阶段
我们利用VideoMAE模型获取一系列视频剪辑级别的特征信息。
随后对其进行嵌入处理。
嵌入后的数据经过窗口注意力模块和全局注意力机制的处理。
对于每一个时间步,在每一步时序中
我们利用多分类头推断当前帧的动作类别,并结合回归头精确识别关键帧的时间位置。
最终生成候选动作。
多注意力 :如图1右侧所示的部分,在多尺度通道Transformer编码器中从视频片段中提取出的特征信息

经由LayerNorm模块、多头注意力机制以及窗口注意力模块的输入后,随后执行下采样操作以获取特征表示

。特征

对编码器进行重新输入处理后,在经过Layer normalization、multi-head attention、spatial attention以及downsampling operations的作用下,提取特征信息。

。这种操作重复N-1次,以获得

。之后,

将输入信号传递至多尺度通道Transformer解码器进行解码,并通过不同全连接层回归动作的类别信息以及对应的时间信息
在多头注意力机制中通过融合过程结合各输入特征;由于输入数据按时间序列排列该模块将综合时间轴信息。窗口型注意力机制则不仅考虑相邻时间点的数据还对全体数据进行融合但其核心整合维度仅限于通道方向。
我们的模型主要由N个Transformer层构成,在设计架构时我们采用了多尺度策略以有效识别不同时间尺度的动作特征。每一层都整合了局部多头自注意力机制与全局多头自注意力机制,在关注动作的不同层次时实现了信息的有效融合。这种设计通过数学公式表达如下:

其中,

指的是第i层的MSA,

我们关注的是第i层的GMSA。标准Transformer架构通常包含多头自注意力机制(MSA)以及逐层前馈网络(MLP)。为了提升计算效率,在模型设计中引入了新型多注意机制。该机制由短视窗口关注机制与全局关注机制构成,在不同空间维度中提取特征信息。具体而言,在每个短视窗口通道中提取特征后取平均值,并经逐个头的前馈变换后生成对应数量的关注度。这些计算出的关注度将分别应用于各通道上,并根据其重要性进行调整以强化关键特征信号。值得注意的是,在模型结构设计过程中仅增加了有限数量的参数量以实现上述功能
2.4 时间校正
该模型输出了大量的低置信度预测结果,在时间和空间上存在显著重叠。评分标准规定每个正确结果最多匹配一个预测,并要求预测的时间范围与正确结果尽可能接近。这促使我们设计了一种方法来筛选高置信度预测并生成更精确的时间估计。为此,我们开发了一个时间校正模块来整合高置信度预测信息并提升定位精度。
时间校正操作包括三个主要步骤,分别是:
- 针对每个视频ID生成的所有预测结果中,请选择得分最高的且具有相同标签的一个预测结果,并舍弃其余预测项。
- 依次针对多个不同的模型实施步骤1,并将所有输出进行整合后得到最终的结果。
在步骤2完成后获取到的结果,在时间交集并集指标tIoU的基础上融合具有相同标签且同一视频ID的结果;具体的融合操作包括:
(1)移除所有时间长度小于1秒的结果;移除所有时间长度大于30秒的结果;
(2)对于具有相同视频ID和相同标签的所有结果,在保证其分类准确性的同时进行分组处理,并将其划分为若干个子集;要求每个子集中各时间段的tIoU均高于预先设定的标准
(3)移除长度为1的集合;
从步骤(3)获取的所有集合出发,在每组数据内分别求取各个时间段点数据集内的数值均值;由于每组数据都具有统一对应的视频标识符以及共同的情感分类标记属性,在各组数据内分别求取起始时刻均值,并将其定义为对应视频标识符与情感分类标记的时间起始;同样地,在各组数据内分别求取终止时刻均值,并将其定义为对应视频标识符与情感分类标记的时间区间终点;对于第i个样本数据以及第j个情感分类标记类别而言,在其动作时长范围内可由如下公式确定起始时间和终止时刻

其中,

是第i个视频ID和第j个标签的动作的开始时间,

是第i个视频ID和第j个标签的动作的结束时间。

表示视频ID为i且标签为j的预测集合。N是

的长度。

表示

中第p个预测的开始时间,

表示

中第p个预测的结束时间。
在融合具有相同视频ID和标签的结果时

其中,

表示

中第p个预测的分数。
3. 实验
3.1 训练
3.1.1 特征提取模型
基于 A1 数据集分别进行了 VideoMAE-L 和 VideoMAE-H 的微调训练。其中训练裁剪尺寸设定为 2 \times 每像素(pixel),初始学习率设置为 2 \times 每单位十次方负三次方(10^{-3})。视频帧数设定为每秒(per second)十六帧(frame),采样率定为四倍频(four times)。实验在八个NVIDIA V100显卡上执行,并采用批量处理方式完成数据输入与模型输出管理:VideoMAE-L经过三十五个周期(epoch)的训练达成了目标性能基准值;而VideoMAE-H则经过四十个周期的学习过程获得了更好的性能表现。
3.1.2 时间动作定位模型
在 A1 数据集上完成实验任务,在实验过程中我们将数据按7:3的比例划分成训练集与测试集并将所有A1数据全部作为训练集输入给预训练模型UniFormerV2通过以步长为16的滑动窗口从原始视频中提取了覆盖左中右三个区域的3072维特征向量以提升网络性能为目标随后我们对提取出来的1024维特征向量进行了消融研究经过40轮迭代学习并采用前五轮进行线性预热设置初始学习率为0.001 并采用余弦衰减策略动态调节;同时为了防止过拟合 在网络参数上设置了L2正则化系数为0.05 最后该方法可适用于不同的特征 并测试模型在多视角 单视角以及多特征上的性能
3.2 结果
3.2.1 数据预处理结果
为了验证裁剪操作是否提升了模型效果,并通过消融实验进行测试
3.2.2 多视角模型结果
我们启动了实验过程,并在A1数据集上应用了预训练架构UniFormerV2来提取所有视角视频的高维特征(3072-D)。基于验证集的数据进行了模型训练。实验中设置了窗口大小(window size)参数值为9,并将小批量处理大小设为4;同时将最大序列长度设定为了2304个时间步长。表4汇总了实验结果:该方法在平均mAP方面达到67.33%,并且当tIoU设为0.5时,平均mAP值达到59.02%。通过简洁的设计方案与强大的多头注意力机制相结合,实验性能得到了显著提升;此外,在尝试不同的超参数配置时发现,在采用8个头的FPN架构并增加窗口大小至13的情况下(中心样本半径仍设为2.5),能够进一步提高平均mAP值至70.69%
基于各区域对屏幕目标所携带的信息差异性考虑,在实际应用中我们设计并实施了多组实验方案。这些方案涵盖了多种可能的剪裁范围及相应调整策略,并通过系统性的对比分析来评估其效果。具体而言,在经过上述步骤后得到了表5中的数据结果。与上一轮测试(其中mAP值为67.33%)相比,在当前轮次的测试中发现两者之间的性能差异微乎其微,在后续研究中我们决定放弃采用不同的剪裁策略
3.2.3 后视图模型结果
从实验结果可以看出, 基于后视图的分类模型显示出更高的准确性. 通过采用不同VideoMAE背景模型提取后的视图特征进行建模分析, 我们评估了各方案下的性能表现. 从表6的数据可以看出, 在时间动作识别任务中各特征的表现存在显著差异.
3.2.4 时间校正模块结果
实验结果如表7所示的时间校正模块验证表明:表8列出了各模型M1至M10的具体参数设置情况。鉴于系统提供的评估次数有限性限制了我们对所有可能的模型组合进行全维度测试的能力;因此我们采用了部分测试方案来确定最优配置参数;基于此原则我们设计了一个基于比较实验的方法框架;通过该框架我们能够更加高效地筛选出性能优越的时间校正方案;在此基础上我们最终选择了M7+M8+M9+M10这一最佳组合方案;该方案在公共排行榜上的平均重叠分数达到了0.6723显著优于其他候选方案;此外通过对比不同特征组合的表现我们发现:引入表2中的FL(hybrid)(1024)特征能显著提升预测精度;而仅依赖FL(ego)(1024)特征的效果相对有限;与之相比使用FH(k400)(1280)特征能够进一步增强模型鲁棒性;Tridet这一强大的视频特征提取方法也得到了充分验证;基于以上分析我们可以预期通过优化融合策略进一步提升系统的性能表现;
4. 结论
本文开发了一种基于多注意力Transformer的时空行为检测技术。该方法显著优势在于其创新性设计的选择。特别地,在模型架构中整合了特征提取与多注意力机制的有效结合。该架构能够有效地模拟视频中更长时间范围内的语义关联模式。我们系统性地进行了一系列实验分析,并对比评估了不同设置下的性能差异。通过评估不同参数组合下的模型表现差异,并寻找能够带来更优配置的选择方案。此外还提出了一个时间校正模块用于提升模型的时间精度问题
读后总结
创新点1:在时间动作定位实现过程中, 开发出多注意力机制的Transformer组件, 在Transformer架构中引入局部窗口注意力机制, 并设计了一套结合局部关注与全局关注的新型机制, 该方案取代了传统固定窗口关注方式
创新点2:开发基于时序校准的技术模块;针对视频序列中的预测结果进行整合与优化;采用平均值与加权平均方法;从而实现对时间定位的更高精度。
