FreqBlender: Enhancing DeepFake Detection by Blending Frequency Knowledge（NeurIPS 2024）

阅读量：

学术研究：FreqBlender: 提升深度伪造检测能力通过融合频率知识（NeurIPS 2024）

（一）创新点

本文开发出了一种创新性的伪人脸生成工具FreqBlender，并深入探究了这些关键频谱特征。随后构建了一种新型的频率分析网络（FPNet） ，该网络能够智能识别并分离与伪造痕迹相关的频谱特征。

（二）初步分析

在频率图中定义位置点(x,y)，其中坐标(0,0)位于左上角而(1,1)位于右下角。具体而言，在满足x+y≤ $\frac{1}{\text{十六}}$ 的所有点构成语义域，在 $\frac{1}{\text{十六}}$ <x+y≤ $\frac{\text{一}}{2}$ 之间的点构成结构域，在x+y> $\frac{\text{一}}{2}$ 的区域则属于噪声域。

（二）本文方法

编码器可用符号E\mathcal{E}进行表示；假设输入为一个人脸图像 x∈X∈{0, 255}^{h×w×3}；随后将该人脸图像通过离散余弦变换（DCT）转换为频率域表示 ϕ(x)∈ℝ^{h×w×3}；接着利用模型生成三个概率分布：分别对应语义、风格和噪声成分的概率分布；每个概率分布均定义在频率域空间中；通过这些分布我们可以提取出不同类型的频带特征；具体而言，在获得各个频带对应的概率值后；我们可以通过乘法操作结合相应的特征向量来重构所需的不同类型频带特征；例如，在获取语义相关频带特征时；我们可采用如下计算步骤：首先计算条件概率矩阵P(D|E)，其中D代表所需特定类型的频带特征矩阵；然后根据贝叶斯定理将其转化为P(E|D) = P(D|E)P(E)/P(D)；最后通过最大似然估计方法求取最优参数θ以最小化目标函数L = ∑_{i=1}^N log P(y_i|x_i;θ)]

在模型的训练过程中，本文引入了四个辅助学习目标以指导网络进行学习，并以促进网络自身的自我优化为目标推动其改进和发展

1.面部保真度损失

推论一： 给定任意一个人脸样本 $\mathbf{x}$ 属于集合 $\mathcal{X}$ （其中每个样本的空间分辨率均为 $h$ 像素 × $w$ 像素 × 3 通道，并且像素取值范围为 [0,255]）时，在经过语义信息提取与逆离散余弦转换（IDCT）后得到的新图像 $\phi^{-1}(\phi_{\text{sem}}(\mathbf{x}))$ 将保持与原输入图像 $\mathbf{x}$ 相同的面部身份识别结果 $\forall x ∈ X ∈ {0, 255}\^{h×w×3}, F(ϕ^{-1}(ϕ_{\text{sem}}(x))) = F(x)$

损失函数表达式： $\mathcal{L}_{\text{ff}}$ （ $\bm{x}$ ）定义为 $\|\bm{\Phi}_{f}\left( \bm{\Phi}^{-1}_{\texttt{lmo}} (\bm{\Phi}_{\texttt{surr}} (\bm{x})) \right) - \bm{\Phi}_f (\bm{x}) \|^{~{}_{_{_{{}_{{}_{{}}}^{^{^{~{}_{_{{}_{{}_{{}}}^{^{^{~{}_{_{{}_{{}_{{}}}^{\, 2 }} }} }} }} }\right)}$

\phi_{sem}(x)：从输入人脸x中提取的语义信息的频率成分；
- $\phi^{-1}$ ：反余弦变换（IDCT），将频率成分还原为空间域；
- $F_f(x)$ ：基于人脸识别模型（如MobileNet）提取的人脸特征。

2.真实性决定损失

推论二：假设存在真实的人脸数据 $\mathbf{x}_r$ 和含有虚假特征的人工生成图像 $\mathbf{x}_f$ ，只有在将 $\mathbf{x}_f$ 中的结构性信息注入到 $\mathbf{x}_r$ 后才能使检测器判定其为虚假样本。具体而言，在检测器输出结果表明 $\mathcal{D}(\mathbf{x}_r) = 0$ 的情况下（其中 $\mathcal{D}$ 代表带有真伪标签的 DeepFake 检测器），我们采用如下公式进行判别： $\hat{\phi}_{\text{str}}(\{\bm x_r, \bm x_f\}) = \argmax_{c\in[|\bm x_r|]} \sum_{i=1}^{|\bm x_r|}\sum_{j=1}^{|\bm x_f|}\delta(c, g_i^j)}$ ，其中插入操作用 ⊕ 符号表示

我们定义损失函数Lad为：

\mathcal{L}_{\text{{ad}}}(x_r,x_f) = {\frac {1}{|\,\!{\mathcal {C}}_{{r}}|}}{\sum _{{{\scriptstyle x}\in {{\,\!{\mathcal {C}}_{{r}}} } }}^{{}}{{{\rm {CE}}(x,\!~{}{}{}{}{}{}{}{}{}{}{}{}{}{}\!{}\!{}\!{}\!{}\!{}\!{}\!{}\!{}\!{})}} + {\frac {1}{|\,\!\,{\mathcal {C}}_{{f}}} |}{\sum _{{{\scriptstyle x}\in {{\,\!\,{\mathcal {C}}_{{f}}} } }}^{{}}{{{\rm {CE}}(x,\!\;)}}

当被检测为真时： $\mathcal{C}_r = \{\phi^{-1}(\phi_{\text{ semantic}}(\mathbf{x}_{\text{ real}})), \phi^{-1}(\phi_{\text{ semantic}}(\mathbf{x}_{\text{ final}})), \phi^{-1}(\phi_{\text{ semantic}}(\mathbf{x}_{\text{ real}}) + \phi_{\text{ structure}}(\mathbf{x}_{\text{ real}}))\}$ ;
当被检测为假时： $\mathcal{C}_f = \{\phi^{-1}(\phi_{\text{ semantic}}(\mathbf{x}_{\text{ final}}) + \phi_{\text{ structure}}(\mathbf{x}_{\text{ final}})), \phi^{-1}(\phi_{\text{ semantic}}(\mathbf{x}_{\text{ real}}) + \phi_{\text{ structure}}(\mathbf{x}_{\text{ final}}))\}$ ;
其中CE代表交叉熵损失函数。

3.质量无关损失

推论三：当去除噪声信息的频率成分时，在频域中应当不会观察到明显的变化。换言之，在给定人脸图像 $\mathbf{x} \in \mathcal{X} \in \{0, 255\}^{h \times w \times 3}$ 的情况下（其中 $\mathcal{X}$ 表示所有可能的人脸图像集合），经过去噪操作后的结果 $\mathbf{x} ⊖ \phi_{\text{noi}}(\mathbf{x}_f)$ 应该与原图像 $\mathbf{x}$ 几乎一致。\

损失函数定义为：损失函数定义为： $L_qa(\bm{x}) = ‖\bm{x} - \bm{\Phi}_s^{-1}\left( f_s (\bm{\Phi}_m (\bm{x})) + f_p (\bm{\Phi}_m (\bm{x})) \right) ‖_F^{\, ²}$

4.先验和完整性损失

推论四：每个频率成分都应与初步结果保持一致即预测的频率成分与初步分析中的近似频率分布之间不应出现显著差异

m sem, m str, m noi im_{\text{sem}}, m_{\text{str}}, m_{\text{noi}}分别代表语义、结构以及噪声信息的初始频率值, 用于加快模型在预期方向上的收敛速度;

全部评论 (0)

还没有任何评论哟~

FreqBlender: Enhancing DeepFake Detection by Blending Frequency Knowledge（NeurIPS 2024）

论文阅读：FreqBlender:EnhancingDeepFakeDetectionbyBlendingFrequencyKnowledge（NeurIPS2024）（一）创新点本文介绍了一种新...

FreqBlender: Enhancing DeepFake Detection by Blending Frequency Knowledge

文章目录动机以及贡献动机贡献方法分析验证实现网络结构 PixelShuffle 实验交叉实验总结动机以及贡献动机核心要义：与现有的在空间域混合人脸的方法（右部分）相比，Fre...

【FST】Explaining Deepfake Detection by Analysing Image Matching

文章目录 ExplainingDeepfakeDetectionbyAnalysingImageMatching keypoints 研究贡献算法 FST匹配Deepfake检测模型实验验证假...

NeurIPS 2024 BiScope: AI-generated Text Detection by Checking Memorization of Preceding Tokens解读

代码链接：GitHubMarkGHX/BiScope:OfficialImplementationofNeurIPS2024paperBiScope:AIgeneratedTextDetectionb...

2022-ECCV-Explaining Deepfake Detection by Analysing Image Matching

一、研究背景 1.大量工作将深度伪造检测作为一个二分类任务并取得了良好的性能。 2.理解模型如何在二分类标签的监督下学习伪造相关特征仍难是个艰巨的任务。 3.视觉概念：具有语义的人脸区域，如嘴、鼻子、...

Dynamic Graph Learning with Content-guided Spatial-Frequency Relation Reasoning 4 Deepfake Detection

一、研究背景现有依据频率线索判断真伪的方法呈现空间无关性。二、研究动机 1、由于与图像内容交互不足，因此频域特征呈现空间无关性，难以用其检测新的伪造手段。 2、空间特征和频率特征之间存在高阶关系，...

2024-CVPR-Preserving Fairness Generalization in Deepfake Detection

MM赶完，回来继续更论文了哈哈哈哈一、研究背景 1.Deepfakedetection模型存在统计学偏差，并对特定人群作出不公平的判断。 2.Fairlossfunction可以解决上述不公平检测问...

翻译：Vul-RAG: Enhancing LLM-based Vulnerability Detection via Knowledge-level RAG

VulRAG：通过知识级RAG提升基于LLM的漏洞检测能力 VulRAG:EnhancingLLMbasedVulnerabilityDetectionviaKnowledgelevelRAG 摘要 ...

TPAMI-2024-Fully Unsupervised Deepfake Video Detection Via Enhanced Contrastive Learning

一、研究背景 1.现有deepfake方法依赖于准确的标签监督，因此受限于标签数量或标签攻击。 2.现有无监督任务仍需要部分标注：利用无标注数据进行模型预训练，利用有标签数据微调分类器（类别需要标注）...

2024-CVPR-Exploiting Style Latent Flows for Generalizing Deepfake Video Detection

一、研究背景 1.大多数方法主要关注空间伪影和频率伪影，但是这些方法都是基于单张图片进行判断，没有考虑到帧间的时间不连续性。 2.现有关注时间、视觉线索的方法侧重于像素等低级特征，忽略了面部属性等高级...

是否确定退出登录?

FreqBlender: Enhancing DeepFake Detection by Blending Frequency Knowledge（NeurIPS 2024）

学术研究：FreqBlender: 提升深度伪造检测能力通过融合频率知识（NeurIPS 2024）

（一）创新点

（二）初步分析

（二）本文方法

1.面部保真度损失

2.真实性决定损失

3.质量无关损失

4.先验和完整性损失

全部评论 (0)

相关文章推荐

FreqBlender: Enhancing DeepFake Detection by Blending Frequency Knowledge（NeurIPS 2024）

FreqBlender: Enhancing DeepFake Detection by Blending Frequency Knowledge

【FST】Explaining Deepfake Detection by Analysing Image Matching

NeurIPS 2024 BiScope: AI-generated Text Detection by Checking Memorization of Preceding Tokens解读

2022-ECCV-Explaining Deepfake Detection by Analysing Image Matching

Dynamic Graph Learning with Content-guided Spatial-Frequency Relation Reasoning 4 Deepfake Detection

2024-CVPR-Preserving Fairness Generalization in Deepfake Detection

翻译：Vul-RAG: Enhancing LLM-based Vulnerability Detection via Knowledge-level RAG

TPAMI-2024-Fully Unsupervised Deepfake Video Detection Via Enhanced Contrastive Learning

2024-CVPR-Exploiting Style Latent Flows for Generalizing Deepfake Video Detection