论文阅读-How Do the Hearts of Deep Fakes Beat?
一、论文信息:
- 题目:How Do the Hearts of Deep Fakes Beat?
Deep Fake Source Detection by Interpreting Residuals using Biological Signals
- 作者团队:

二、背景与创新
1、背景:
随着人工智能技术的快速发展,在图像合成领域所取得的技术突破正在对社会产生深远影响。具体而言,在政治宣传、名人模仿以及伪造证据等方面的应用已经展现出强大的社会价值和潜在危害性。在上述生成技术不断进步的过程中,研究人员已开发出若干具有显著效果的 deepfake 检测方法;然而,在现有研究中尚无系统性探讨专门针对 deepfake 视频来源的工作(例如:模型)。
作者开发了一种基于生物特征信息的检测方法。
该系统不仅能够有效地区分真伪视频序列,
还可以识别出被使用的深度伪造技术的具体生成机制。
其中具体的生成机制是通过从预设的技术集合DeepFakes, Face2Face, FaceSwap, NeuralTex中进行选择来实现的。
创新: 基于纯深度学习方法的研究者尝试利用卷积神经网络(CNN)对伪造视频进行分类任务。作者认为,在生成模型中提取的残差特征可能包含更丰富的信息资源,并提出通过与生物信号分离的方法来揭示视频伪造的具体细节。实验结果表明,在真实视频与虚假视频之间提取的人体光谱光电子图(PPG)单元特征具有显著差异性。为了验证这一发现的有效性,研究团队从真实视频和虚假视频中分别提取PPG特征,并将其输入当前最优分类网络中进行特征匹配分析。
本研究致力于开发一种基于深度伪造视频源的检测技术,在deepfake检测领域开创了全新研究方向;
揭示一项重要发现:通过将生成噪声投射至生物信号空间 ,从而赋予每个模型独特的身份识别码;
开发一种新型的统一 deepfake检测系统,在区分真伪视频方面表现更为卓越。该系统不仅具备显著的检测效能,在识别能力上也远超同类方案。此外,它能够深入解析并识别出假视频所使用的生成机制(即源生成模型)。
三、PPG单元
经研究发现,在深度伪造检测领域中,
生物特征信息不仅可充当真实视频真实性鉴定的标准,
同时也被视为重要依据。
众所周知,
在合成角色身上难以观察到与真实角色相似的心跳节奏。
此次研究的核心发现建立在以下事实基础:
这些生物特征信息可被视为包含了每个模型残差标识变换的假心跳特征。
这促使研究人员对生物信号展开了全新探索;
不仅能够用于判定 video 的真实性状态,
并且还能对生成该 video 的原始 model 进行分类。
本研究设计了一种既能识别深度伪造视频(DFPs),又能判别来源生成模型(SGMs)的方法。该系统具备双重能力:不仅能够识别来源生成模型,并如图所示


基于真实视频序列(a),通过多组生成网络(b)分别运用各自特异的残差特征(c),我们构建了深度伪造内容。该系统通过采集面部区域-of-interest(d)以及生物信号(e),用于构建PPG单元(f),其中其残差特征(g)同时体现在空间域和频域上。接着,在对PPG单元(h)进行训练并实施滑动窗口预测方法(i)的基础上,我们能够判断其真实性和来源(k)。
- 第一步为了持续捕捉生物信号的特征信息, 研究人员提出了一种新型的时间-空间单元——PPG单元 。该单元通过融合多源PPG信号及其频谱特性, 并在固定采样窗口内提取数据。PPG单元的生成过程首先依赖于使用人脸检测算法对每一帧图像进行识别。
- 第二步是从检测到的人脸区域中提取感兴趣区域(ROI)(图1 d),该区域具有稳定的PPG信号特征。为了有效提取ROI, 作者选择了通过眼睛和嘴之间的面部区域来最大化皮肤暴露面积, 这一方法有助于减少不同区域间的信号干扰。
- 第三步需要将非线性分布的ROI与矩形基准图像进行精确对齐。本研究采用了Delaunay三角剖分方法[26], 对每个矩形目标应用非线性仿射变换, 最终将变形的图像转换为标准校正图像。
- 在第四步中, 研究者将每个校正后的图像分割为32个等尺寸的小正方形区域, 并在固定大小的ω框架内计算每个小块的原始Chrom-PPG信号值, 这一过程完全不影响后续的人脸检测操作(图1e)。随后, 计算校正后的Chrom-PPG信号以获取更可靠的PPG数据。
- 对于每一个ω大小的窗口区域, 现在得到了ω×32个原始PPG测量值。将这些数据重新排列成32行、ω列的矩阵形式即可构建PPG单元的基础信息(如图1 f所示)。这种矩阵化处理方式为后续的数据分析提供了可靠的基础支持。

该系统架构采用滑动窗口技术,在ω=64大小的滑动窗口中对PPG信号进行处理,并将结果分为上下文信息呈现给用户。第一行展示示例帧用于直观观察信号特征,在第二行展示了原始PPG数据和其频谱分解后的特征信息。左侧列呈现了真实视频及其深度伪造结果:第一列展示了真实视频图像及其对应的深度伪造样本;第二列展示了各生成模型对这些视频进行深度伪造的效果对比。第三行则详细描述了系统中累积残差估计值的表现情况:这些估计值与目标设备上的颜色特征之间具有显著的相关性特征。
在最终步骤中,在PPG单元中嵌入频域信息。具体而言,在分析窗口内每个原始PPG值时,我们计算其功率谱密度,并对其进行归一化处理至ω尺度。图2底部一行展示了基于同一窗口生成的deepfake PPG单元示例框架
在定义PPG单元之后,在此基础上阐述了核心假说:将deepfake生成器的残差映射到生物信号空间能够形成独特的特征标记,并可作为识别潜在生成来源的依据。
四、实验
本研究开发的系统以Python语言为基础构建,并通过OpenFace库实现了人脸识别功能;同时结合OpenCV框架完成了图像处理任务;最终基于Keras平台搭建了神经网络模型
表 1 呈现了测试集上的PPG单元分类结果对比分析,在区分4种生成模型以及检测真实视频方面(图 1f),VGG19 显著优于其他网络架构。尽管在训练集上表现出色的DenseNet和MobileNet模型尽管在训练集上表现出色(图 1e),但在测试集上的推广能力仍有待提升。这表明这些复杂网络模型在避免过拟合方面的不足导致其在实际应用中的局限性更加明显。

在视频分类领域中,表 2 包含了其中的不同投票方案.研究者设定 ω=128,并对其在使用大多数投票、最高平均概率、两个最高平均概率以及对数几率平均后的 VGG19 模型单元预测结果进行了系统性比较分析.

如图3所示的结果表明, 所采用的方法在识别包含1个真实视频和4个虚假视频的五类FF类别时, 达到了97.3%的真实视频识别率; 同时, 对生成模型的检测精确度也达到了最低81.9%

研究人员在多个不同场景下分别进行了训练与测试:1. 训练数据集中不包含真实视频样本;2. PPG单元中缺乏功率谱信息;3. 没有采集到生物信号数据;4. 采用了整个图像而非仅面部区域的ROI(Region of Interest),其中ω=64,并将FF(Frontal Face)数据集的分割参数设定保持恒定。实验结果如表3所示。

基于所述配置,以不同尺寸的窗口(ω = {64, 128, 256, 512} 帧)对本文所提出的解决方案进行评估。实验结果请参考表 4。

为了验证所提出的方法适用于新模型架构的可能性, 研究人员采用了FF设置与CelebDF单一生成器数据集相结合的方式, 并对整个分析流程进行了反复进行分析流程以获取可靠结果. 研究结果表明, 所提方法在整体测试集中实现了93.69%的检测精度, 同时其在CelebDF单一生成器测试集中也获得了92.17%的检测精度, 这一成果充分证明了所提出的方法具备良好的泛化性能(参见表5):

测试结果展示在表6中

