Advertisement

FreqBlender: Enhancing DeepFake Detection by Blending Frequency Knowledge(NeurIPS 2024)

阅读量:

学术研究:FreqBlender: 提升深度伪造检测能力通过融合频率知识(NeurIPS 2024)

(一)创新点

本文开发出了一种创新性的伪人脸生成工具FreqBlender,并深入探究了这些关键频谱特征。随后构建了一种新型的频率分析网络(FPNet) ,该网络能够智能识别并分离与伪造痕迹相关的频谱特征。

(二)初步分析

在频率图中定义位置点(x,y),其中坐标(0,0)位于左上角而(1,1)位于右下角。具体而言,在满足x+y≤\frac{1}{\text{十六}}的所有点构成语义域,在\frac{1}{\text{十六}}<x+y≤\frac{\text{一}}{2}之间的点构成结构域,在x+y>\frac{\text{一}}{2}的区域则属于噪声域。

在这里插入图片描述

(二)本文方法

编码器可用符号E\mathcal{E}进行表示;假设输入为一个人脸图像 x∈X∈{0, 255}^{h×w×3};随后将该人脸图像通过离散余弦变换(DCT)转换为频率域表示 ϕ(x)∈ℝ^{h×w×3};接着利用模型生成三个概率分布:分别对应语义、风格和噪声成分的概率分布;每个概率分布均定义在频率域空间中;通过这些分布我们可以提取出不同类型的频带特征;具体而言,在获得各个频带对应的概率值后;我们可以通过乘法操作结合相应的特征向量来重构所需的不同类型频带特征;例如,在获取语义相关频带特征时;我们可采用如下计算步骤:首先计算条件概率矩阵P(D|E),其中D代表所需特定类型的频带特征矩阵;然后根据贝叶斯定理将其转化为P(E|D) = P(D|E)P(E)/P(D);最后通过最大似然估计方法求取最优参数θ以最小化目标函数L = ∑_{i=1}^N log P(y_i|x_i;θ)]

在这里插入图片描述

在模型的训练过程中,本文引入了四个辅助学习目标以指导网络进行学习,并以促进网络自身的自我优化为目标推动其改进和发展

1.面部保真度损失

推论一: 给定任意一个人脸样本 \mathbf{x} 属于集合 \mathcal{X}(其中每个样本的空间分辨率均为 h 像素 × w 像素 × 3 通道,并且像素取值范围为 [0,255])时,在经过语义信息提取与逆离散余弦转换(IDCT)后得到的新图像 \phi^{-1}(\phi_{\text{sem}}(\mathbf{x})) 将保持与原输入图像 \mathbf{x} 相同的面部身份识别结果 \forall x ∈ X ∈ {0, 255}\^{h×w×3}, F(ϕ^{-1}(ϕ_{\text{sem}}(x))) = F(x)

损失函数表达式:\mathcal{L}_{\text{ff}}\bm{x})定义为\|\bm{\Phi}_{f}\left( \bm{\Phi}^{-1}_{\texttt{lmo}} (\bm{\Phi}_{\texttt{surr}} (\bm{x})) \right) - \bm{\Phi}_f (\bm{x}) \|^{~{}_{_{_{{}_{{}_{{}}}^{^{^{~{}_{_{{}_{{}_{{}}}^{^{^{~{}_{_{{}_{{}_{{}}}^{\, 2 }} }} }} }} }\right)}

  • \phi_{sem}(x):从输入人脸x中提取的语义信息的频率成分;
    • \phi^{-1}:反余弦变换(IDCT),将频率成分还原为空间域;
    • F_f(x):基于人脸识别模型(如MobileNet)提取的人脸特征。

2.真实性决定损失

推论二:假设存在真实的人脸数据 \mathbf{x}_r 和含有虚假特征的人工生成图像 \mathbf{x}_f ,只有在将 \mathbf{x}_f 中的结构性信息注入到 \mathbf{x}_r 后才能使检测器判定其为虚假样本。具体而言,在检测器输出结果表明 \mathcal{D}(\mathbf{x}_r) = 0 的情况下(其中 \mathcal{D} 代表带有真伪标签的 DeepFake 检测器),我们采用如下公式进行判别:\hat{\phi}_{\text{str}}(\{\bm x_r, \bm x_f\}) = \argmax_{c\in[|\bm x_r|]} \sum_{i=1}^{|\bm x_r|}\sum_{j=1}^{|\bm x_f|}\delta(c, g_i^j)} ,其中插入操作用 ⊕ 符号表示

我们定义损失函数Lad为:

\mathcal{L}_{\text{{ad}}}(x_r,x_f) = {\frac {1}{|\,\!{\mathcal {C}}_{{r}}|}}{\sum _{{{\scriptstyle x}\in {{\,\!{\mathcal {C}}_{{r}}} } }}^{{}}{{{\rm {CE}}(x,\!~{}{}{}{}{}{}{}{}{}{}{}{}{}{}\!{}\!{}\!{}\!{}\!{}\!{}\!{}\!{}\!{})}} + {\frac {1}{|\,\!\,{\mathcal {C}}_{{f}}} |}{\sum _{{{\scriptstyle x}\in {{\,\!\,{\mathcal {C}}_{{f}}} } }}^{{}}{{{\rm {CE}}(x,\!\;)}}

  • 当被检测为真时:\mathcal{C}_r = \{\phi^{-1}(\phi_{\text{ semantic}}(\mathbf{x}_{\text{ real}})), \phi^{-1}(\phi_{\text{ semantic}}(\mathbf{x}_{\text{ final}})), \phi^{-1}(\phi_{\text{ semantic}}(\mathbf{x}_{\text{ real}}) + \phi_{\text{ structure}}(\mathbf{x}_{\text{ real}}))\};
  • 当被检测为假时:\mathcal{C}_f = \{\phi^{-1}(\phi_{\text{ semantic}}(\mathbf{x}_{\text{ final}}) + \phi_{\text{ structure}}(\mathbf{x}_{\text{ final}})), \phi^{-1}(\phi_{\text{ semantic}}(\mathbf{x}_{\text{ real}}) + \phi_{\text{ structure}}(\mathbf{x}_{\text{ final}}))\};
  • 其中CE代表交叉熵损失函数。

3.质量无关损失

推论三:当去除噪声信息的频率成分时,在频域中应当不会观察到明显的变化。换言之,在给定人脸图像 \mathbf{x} \in \mathcal{X} \in \{0, 255\}^{h \times w \times 3} 的情况下(其中 \mathcal{X} 表示所有可能的人脸图像集合),经过去噪操作后的结果 \mathbf{x} ⊖ \phi_{\text{noi}}(\mathbf{x}_f) 应该与原图像 \mathbf{x} 几乎一致。\

损失函数定义为:损失函数定义为: L_qa(\bm{x}) = ‖\bm{x} - \bm{\Phi}_s^{-1}\left( f_s (\bm{\Phi}_m (\bm{x})) + f_p (\bm{\Phi}_m (\bm{x})) \right) ‖_F^{\, ²}

4.先验和完整性损失

推论四:每个频率成分都应与初步结果保持一致即预测的频率成分与初步分析中的近似频率分布之间不应出现显著差异

m sem, m str, m noi im_{\text{sem}}, m_{\text{str}}, m_{\text{noi}}分别代表语义、结构以及噪声信息的初始频率值, 用于加快模型在预期方向上的收敛速度;

全部评论 (0)

还没有任何评论哟~