Fully Unsupervised Deepfake Video Detection via Enhanced Contrastive Learning
目录
- 背景
- 方法流程
- 阶段1:伪标签生成模块的搭建
-
阶段2:增强对比学习过程
-
阶段3:二值分类模型的设计与实现;鉴定机制的构建与优化
- 实验部分
-
- 消融实验
- 与先进的方法对比
- 方法的泛化性
-
来源期刊:《IEEE Transactions on Pattern Analysis and Machine Intelligence》2024年版(CCF A级)
作者包括 Tong Qiao、Shichuang Xie、Yanli Chen、Florent Retraint 和 Xiangyang Luo 等人(注:∗ 表示此作者为通信作者)
所属机构:杭州电子科技大学,杭州市中国。
论文链接:https://ieeexplore.ieee.org/document/10411047
代码仓库链接:https://github.com/bestalllen/Unsupervised_DF_Detection
背景
问题
- 当训练样本的真实标签数量较小时
- 在面对恶意攻击的情况下(其中包含大量噪声标签),训练数据可能受到影响
解决方法: 设计一个完全无监督的深度伪造检测器。
- 开发了一个用于标注训练样本的伪标签生成器,在传统特征提取方法的基础上实现了对真伪两类样本的有效区分。
- 将标注了人工辅助标签的学习样本输入至所提出的增强对比学习框架中进行优化,在对比损失函数的引导下持续提升模型对真实与虚假视频特征的鉴别能力。
- 基于帧间相关性完成真实与虚假视频的二元分类任务。
方法流程
阶段1:伪标签生成器的建立
针对下游任务,在对比学习领域提出了一种增强方法——Primitive clustering 方法——它依赖于真实样本与虚假样本的获取。然而,在训练阶段的真实标签是未知的;为此我们引入了一种将训练数据分配伪标签的方法。仅仅随机赋予每个数据点一个伪标签并不能带来理想的学习效果;因此我们需要一种更为系统化的策略。(基于以下关键假设:学习过程能够成功前提是拥有足够的数量级充足的样本以及具有基本正确性的类别分布;即应确保所选择的数据具备一定的聚类纯净度。)为了实现这一目标提出了 Primitive clustering 方法——通过对原始数据进行聚类操作从而获得相应的伪标记信息。

在无监督聚类环境中,通过Purity这一指标可以量化聚类的质量.基于对提升区分度的需求,在经过Primitive阶段的聚类后需确保其具有足够的清晰度.
(1)基于深度聚类的方法,利用经过预先训练的深度神经网络(DNN)模型实现对不同类别图像的数据分组。其基本理念在于将原始数据从高维空间映射至低维特征空间。随后,采用复合损失函数优化模型参数以提升表示学习的效果。最终目标是在迭代过程中能够更好地区分不同类别中的图像特征。
(2)采用传统的hand-crafted提取方法。

两种方法对比如下:

相对于而言,人工设计的特征可能更适合文章中提出的Primitive clustering。
阶段2:增强对比学习

在本研究中进行对比实验,在(1)不使用伪标签和(2)利用伪标签两种情况下分别展开分析。通过比较可以看出,在引入伪标签后能够显著提升网络性能。

阶段3:二值分类&鉴定
该视频提取多帧的过程通过Encoder Network处理后获取相应的特征信息;随后采用Kmeans算法进行聚类分析;将特征数据划分为两个类别;其中占多数的一类将被用于计算帧间的相似度评估。


在真实视频剪辑操作中,帧间的过渡效果非常流畅且未受到人工干预的影响,而相比之下,在假视频剪辑中明显的伪影容易被检测出来
基于帧间相关性区分两类视频的方法
实验部分
消融实验

与先进的方法对比

方法的泛化性

