【论文笔记】【ICCV 2021 Oral】Evidential Deep Learning for Open Set Action Recognition
Evidential Deep Learning for Open Set Action Recognition
-
- Abstract
-
- Problem Solving
-
- Main Contribution
-
- Model Overview
-
- Model Architecture
-
First part: Evidential Neural Networks
-
Second part: Evidential Uncertainty Calibration
-
Third part: Contrastive Evidence Debiasing
- 实验
-
- Dataset
- Evaluation Protocol
论文地址:https://arxiv.org/pdf/2107.10161.pdf
摘要
在真实场景中,人的动作往往超出了训练数据所覆盖的行为模式.这就需要一个系统能够识别已知的动作并排除未知的动作.相比之下,在开放环境下识别视频动作更具挑战性.为此,我们在本文中提出了一种称为深度证据行动识别(DEAR)的新方法.该方法特别适用于处理开放测试集中的复杂任务.具体而言,我们从证据深度学习(EDL)的角度重新定义了动作识别问题,并通过引入一种创新的方法来规范其训练过程.此外,为了缓解视频表示中存在的静态偏差,我们开发了一个称为插件模块的解决方案.通过对比学习技术有效地降低了这些偏差.实验结果表明该方法在多个基准测试中实现了显著提升
解决问题
open-set recognition (OSR))。在封闭集合上的视频动作识别是指将包含人体动作的视频样本划分为预定的类别之一。开放集合识别旨在通过区分已知类别行为与非预定范围行为来实现分类任务。
OSR挑战 1)人类行为表现的多样化;2)静置特征对识别系统的影响。例如,在图中所示的情形下,在训练集中这一动作的数据背景均为天空与水体环境等较为开放的场景;但在开放集测试集中则会遇到室内环境等不同背景条件下的同一动作识别问题;此外,在训练集中像猫咪弹钢琴的情形往往会被视为主要关注的行为动作;而钢琴这一物体与弹奏动作之间容易产生关联性较高的描述性线索;再如穿着军装行进的情形中,则会因军装本身所具有的显式或潜在的提示性特征而产生干扰性的判别线索等

现有研究在图像领域的开放集识别(OSR)方面已取得较为丰富的成果。相比之下,在视频领域的相关研究相对较少。具体而言,在训练过程中逐步引入未知类别以提升识别能力,并主要采用基于图像特征的方法进行处理。然而这些方法在面对具有独特挑战的视频场景时仍显不足。
本文贡献
- 本文创新性地提出了一个新的分类方法,并采用证据深度学习(EDL)将有序语义推理(OSR)重新定义为一个基于不确定性的度量框架,在这种框架下,预测类别的概率遵循多维β分布(Dirichlet分布),除了预测类别本身的概率外,还成功估计了预测的不确定性。
- 为了有效缓解证据深度学习(EDL)在封闭集环境中训练时可能产生的过拟合风险并提升模型泛化能力, 本文创新性地提出了一个新的模型校准方法 Evidential Uncertainty Calibration (EUC), 该方法通过深入分析精度与不确定性的关系来正则化 EDL 的学习过程。
- 为了创新性地设计一种即时可插拔的 Contrastive Evidence Debiasing (CED) 模块以减轻视频动作中的静态偏置问题, 并通过对比学习的方式有效地消除这些偏置的影响。

文中将所提出的新型分类头与四种backbone网络(I3D、TSM、TPN、SlowFast)融合,并与其它类型分类头进行比较,在视频OSR问题上展现出显著优势。
模型Overview
结构:基于AR架构与Evidential Neural Network(ENN)组成的分类模块。研究采用基于证据型深度学习(EDL)的方法替代传统的交叉熵损失函数来进行训练。
过程:对输入的一个视频序列进行初步分析时会采用预设的动作识别模型完成第一步特征提取工作。随后进入了一个自适应不确定度评估机制作为核心处理单元。
其显著特点在于不仅能够输出多标签的概率预测结果同时又能量化预测结果的置信水平。
在开放场景下的视频数据进行评估测试时系统将根据预训练模型输出的概率分布结果进行自动归类处理。
当检测到样本表现出高度不确定性时系统将自动标记此类样本以便后续人工干预或进一步分析处理。

解决具体两点问题 :
- 在训练过程中集成即插即用的Contrastive Evidence Debiasing (CED)模块以减少视频中人类行为表现带来的偏差。
- Evidential Uncertainty Calibration (EUC)算法增强正则化能力以解决潜在的过拟合问题。

模型结构
第一部分 Evidential Neural Network
引入:基于给定样本的多类别分类任务中假设输入的概率分布基于先验Dirichlet–Laplace混合模型;通过利用预测结果构建相应的Dirichlet–Laplace混合模型进而推导出输入样本在各类别上的后验概率及其分类不确定性评估。
Dirichlet 分布属于实数域上以标准单纯形为基础的高维连续概率分布模型,在统计学中具有重要的应用价值。其在参数空间中定义的概率密度函数可视为二项式概率质量函数的一种扩展形式,并且其参数空间中的几何结构使其成为贝叶斯分析中常用的共轭先验之一。因此,在分类问题中使用 Dirichlet 先验能够自然地引入不确定性建模。特别地,在多分类问题中选择 Dirichlet 先验能够有效地促进模型对各类别的区分能力。基于贝叶斯定理推导可知,在多项式似然下后验仍保持 Dirichlet 形式

利用网络结构输出evidence(e)来构建Dirichlet分布模型,并通过公式推导得出输入样本的多分类概率p及其预测不确定性度量u.
对不确定性的解释 图中所标示的三角形区域即为采样空间与概率分布空间的交汇区域。对于狗这一类别而言,在分类器中赋予较高的判据值(即e),而其他类别则相对较低;这种情况下系统的不确定性度量值较为理想。当图像同时包含三种不同类别的特征时,在分类器中各对应判据都会被赋予较高权重(即每个对应的e均较高),然而由于这些判据之间存在冲突(即某些判据间可能无法同时满足高值条件),此时系统的不确定性度量值仍较为理想。最后一种情况则是针对第三类大象属于训练数据集之外的新奇物体类型,在这种情况下由于缺乏足够的训练样本支持(即各类别的判据均无法得到充分的学习),因此每类都缺乏相应的高置信度(即对应的e均偏低)。

ENN的loss :

按照公式计算的结果是 loss 等于负 y 乘以 log p 即为负对数似然 将其替代为交叉熵损失函数
第二部分 Evidential Uncertainty Calibration
考虑到式(1)中所定义的EDL目标与最小化负对数似然具有等价性,在实际训练过程中该模型可能会出现过度拟合现象,在针对OSAR任务时表现出较低的泛化能力。为了缓解这一挑战性问题,本文提出了一种方法来校准EDL模型的基础假设参数设置依据精度与不确定度之间的关系进行优化。

在图中包含四种情况:(1)准确且确定(AC)、(2)准确且不确定(AU)、(3)不准确但确定(IC)以及(4)不准确也不确定(IU)。其中(1)表示证据充足且不确定性极低的情况属于已知类别;而(4)则表明证据不足同时不确定性极大的情形代表未知类别。为了规范EDL训练过程(图b和图c),我们通过优化AU与IC的期望值来实现对预测不确定性的有效校准。这种做法旨在促进EDL模型在高准确性的同时追求低不确定性,在图a中表现为高准确性但低不确定性的状态,在图d中则体现为相对较低的准确性却较高的不确定性的情况。
基于置信度pi与不确定度ui之间建立的对数约束模型,旨在优化其总和值。

其中,在输入样本xi上的最大分类概率定义为pi,在相关证据下的不确定性度量为ui。第一部分旨在确保在模型实现准确预测的情形下(即当ŷ_i等于y_i且pi趋近于1时),系统应尽可能减少证据不确定性的度量(即ui趋近于0)。第二部分则要求在模型无法实现准确预测的情形下(即当ŷ_i不等于y_i且pi趋近于0时),系统应相应提高证据不确定性的度量(即ui趋近于1)。
第三部分 Contrastive Evidence Debiasing
这部分为了解决静态偏置问题。

CED由三个主要组成部分构成:中间分支采用三维卷积架构(Conv3D)进行证据预测;顶部和底部分支分别负责预测具有偏差性的证据;其中顶端分支继承了中间分支相同的网络架构,并通过重新排列输入顺序来增强对时序数据的关注;而底部分支则保留与中间相同的输入特征特性,在此基础之上采用了二维卷积操作(Conv2D)替代三维卷积结构;这种设计使得在处理时间序列数据时能够有效区分动态变化的信息类型
为了量化两组高维特征之间的关联程度,在此我们采用HSIC函数进行评估;当两组特征完全独立时其关联程度为零;为此我们鼓励用于预测无偏证据的特征f与其用于预测有偏证据的特征h之间形成显著差异
mid-branch: Train unbiased features f through effective learning to encourage the uncorrelated nature between unbiased features f and biased h, where the first term ensures effectiveness and the second term limits their correlation.

顶层和底层分支结构:通过学习两种有偏差的特征h,并以促进两者之间的关联性为目标(第一项旨在确保有效性;第二项则旨在使h尽可能接近f)

(4)和(5)中的两个目标交替优化/联合优化,使特征h有偏,以指导特征f的去偏。
实验
Dataset
- 在三个常用的视频数据集中评估所提出的DEAR方法,在UCF-101、HMDB-51和MiT-v2上均取得了良好效果。
- 所有模型经过UCF-101训练集上的专业优化以提升性能。
- MiT-v2拥有305个分类类别,并包含约3.万条视频样本的测试数据集(其规模约为HMDB-5l测试集中视频数量的二十倍)。在实验过程中,在验证阶段采用了UCF-IoI测试集合作为已知样本集合,并将HMDB-SI和MiT-v2的数据用于未知源的识别任务。
Evaluation Protocol
- 该集合在已知类别上的闭包准确性;
- 通过计算AUC值来区分数据样本中的已知类别与潜在未知类别;
- 该指标用于评估潜在未知类别数量对结果的影响。


在表1中进行了详细报道闭合集与开放集性能指标的研究与分析,在针对不同动作识别模型架构的情况下我们观察到以下结论:我们的方法不仅显著超越所有基线算法在开放集合评估指标(Open maF1)上表现出色并且在拒绝未知类别测试(Open Set AUC)方面也取得了优异成绩;值得注意的是尽管我们在开放集合准确率(Closed Set Accuracy)上维持了较高水平但在某些特定场景下仍需注意谨慎应用;当采用SlowFast网络架构时我们发现相比于MC Dropout方法 our approach 在开集AUC提升幅度达约8%同时maF1分数也提高了约15%这一显著优势进一步凸显了SlowFast网络架构的优势;此外通过对比当前最先进开口集合评估算法 OpenMax 和 RPL 我们发现其在OSAR任务中的表现明显弱于DEAR method这一结果提示我们需要重新审视现有算法并探索更加科学合理的解决方案;进一步研究表明基于3D卷积结构(如I3D SlowFast 和 TPN)往往优于基于2D卷积结构(如TSM)的选择理由在于后者难以有效平衡多维度特征提取需求而前者则能够更好地适应复杂场景下的分类任务需求
表二证明了不同模块的有效性。

图中讨论了不同开放类别个数的影响。

在图中,以蓝色标记的为已知类别,在图形中标记出所有未知类别区域,并使其不确定性趋势应朝向数值1发展

偏置模块的解决效果:

左下角和右上角是分类错误的情况。

