Advertisement

论文阅读-Multi-attentional Deepfake Detection

阅读量:

一、论文信息:

  • 题目:Multi-attentional Deepfake Detection
  • 作者团队:
  • 会议:CVPR 2021

二、背景与创新:

  • 背景: 之前大多数方法将deepfake检测模型作为一个普通的二分类问题,即首先使用骨干网络提取全局特征,然后将其输入二分类器(real/fake)。但由于在鉴伪任务中,真假图像之间的差异往往是微妙的和局部的,作者认为普通的解决方法不是最佳的。
  • 创新: 本文将Deepfake表述为一个细粒度的分类问题 ,并提出了一种新的多注意力的Deepfake检测网络 。具体有以下几部分:
    • 多个空间注意力头,使网络关注不同的局部区域,并从多个人脸注意区域中获取局部区别特征;
    • 纹理增强块,放大浅层特征中的细微伪影;
    • 在注意力图的指导下,聚合低层纹理特征和高层语义特征。
    • 为了解决网络的学习困难,进一步引入了一个新的区域独立性损失和一个注意力引导的数据增强策略,以对抗学习的方式辅助网络训练。

注意区域被分离并响应不同的区别特征。

三、网络结构

3.1 overview

基于此,本文作者提出的多注意力网络框架如下图表示:

主要组成部分通过技术手段被整合至主干网络架构中

通过一个注意力模块实现多个注意力图的输出。
作为纹理增强模块,该密集连接的卷积层能够从浅层特征图中提取和强化纹理信息。
主要采用双线性关注池(BAP)替代全局平均关注池化方案。通过贝叶斯概率方法,在浅层提取纹理特征矩阵,在深层则保留丰富的语义特征信息。

3.2 方法

1、多注意力图

I经Backbone层1提取得到浅层特征Fsla(I),将此特征输入至设计中的attention模块中生成Attention映射图。其中该attention模块由一个1×1卷积层、一个BN层及一个RELU激活函数串联而成。在识别真假人脸时通常会观察到差异性主要集中在局部区域且不易被单一attention架构捕捉到因此通过将注意力分散至多个局部区域能够更为有效地聚合局部特征信息。

2、纹理增强

通过局部平均池化下采样处理后的Fsla(I)生成了基特征图(Pooled feature map)D,在多数检测模型未能察觉的情况下,在图像处理过程中往往会在浅层特征中较为明显地出现伪影现象。这种现象主要体现在浅层特征的高频分量中。为此设计了一种基于纹理增强机制的方法以提高对伪影的检测能力,并在此过程中实现了对传统全局平均池化的优化策略:通过将归一化的局部平均池化替代传统的全局平均池化方法以获取更加丰富的表征信息。
我们在特征层定义残差来表示纹理信息如下:
定义残差的方式是为了更好地捕捉到不同尺度和方向上的纹理细节。

这里提取的T主要包含了Fslt(I)纹理信息的大部分内容。随后通过三层密集连接的卷积块对T进行进一步增强处理,并将输出结果标记为F∈R_C f×Hs×Ws, 被称为"textual feature map"。

3、双线性注意力池化(BAP)

  • 对浅层特征图和深层特征图都使用双向BAP,为了提取浅层纹理特征,我们首先使用双线性插值将注意力图调整到与特征图相同的比例,如果它们不匹配的话。然后,我们分别用每个注意力图Aka元素乘纹理特征图F,得到部分纹理特征图Fk。
  • 考虑到不同区域范围之间的差异,如果使用传统的全局平均融合,融合后的特征向量会受到注意力图强度的影响,这违背了关注纹理信息的目的。为了解决这个问题,我们设计了一个标准化的平均池:

通过叠加Vk得到纹理特征矩阵P ∈ R_MxCf,然后送进分类器。

3.3 注意力图正则化的区域独立性损失

因缺乏细粒度级别的标签而导致的问题容易导致网络降级的情况。具体而言,在这种情况下不同的注意力图往往集中在相同区域这不利于网络捕捉给定输入的丰富信息为此希望每个注意力图都位于固定的语义区域内为此提出了一个区域独立性损失以减少特征图间的重叠程度并保持不同输入的一致性通过中心损失这一概念来实现该方法的具体化该式即为中心损失函数表达式

其中批大小定义为B,在注意力机制中占据核心地位的是一个由M个头构成的多头注意力架构。该机制通过Min代表特征与其对应的中心区域间的界限来衡量单个特征所处的位置,并且这一特性会根据Yi的取值(0或1)而变化。值得注意的是,在这种架构中引入了一个新的参数Mout来衡量不同区域之间的分隔程度,在此过程中参数C被特别定义为:

其中 α为特征中心的更新速率,每个epoch都衰减它。

在L_RIL结构中,第一部分专注于类内损失,其目标是使模型参数V能够趋近于对应的特征中心c.与此同时,第二部分则处理类间损失,旨在防止分布较广的特征点之间的混淆.研究者将区域独立性损失与传统交叉熵损失相结合,其中Lce表示交叉熵相关的成本项,并令各λ取值均为1.最终总损失函数定义为:

3.4 注意力引导的数据增强

旨在让多种注意力图聚焦特定区域的不同位置分布的增强方法被作者提出。

注意力权重图Ak经过归一化处理后,进而得到其标准化形式Ak属于实数域空间R^(H×W)。随后通过应用高斯模糊滤波器生成一个降质图像,并将该权重矩阵Ak作为降质处理因子应用于原始图像进行降质处理。

作用:

该方法可实施针对某些特定区域的模糊化操作,从而确保模型通过该方法实施后能够在其他区域中提取更加稳定可靠的特征;
AGDA偶尔去除最具有区分度的分隔区域的同时,在注意力分布上予以引导以聚焦于不同领域(对应不同标签);
该机制可防止单一的关注区域过于扩张,并促使关注块探索多样化的划分模式。

四、实验

  1. 实验细节
  • α值设定为α= \frac{1}{2}(即α= \frac{1}{2}),在每个epoch周期内将其乘以δ= \frac{9}{10}
  • 在真实和生成图像中分别设置显影强度参数:mout= \frac{2}{15}min= \frac{1}{24}\frac{1}{24}
  • 缩放因子设为SF = \frac{3}{10}并施加高斯模糊处理(Gaussian blur),其σ值设定为7;
  • 使用Adam优化器(Adam optimizer),其学习率设定为lr = 1e^{-3}并配置权重衰减(weight decay)系数\lambda_w = 1e^{-6}
  • 设置批处理大小(batch size)为48;
  • 将对齐后的面部图像保存为大小为38 × 38像素的输入样本。
  1. 基于EfficientNet-b4构建回bones网络,在其架构中包含了七个关键层次结构单元(分别标记为L1至L7)。通过实验发现,在捕捉细微伪影时,网络对较浅层次(如纹理特征)表现出较强的能力;因此选择了中间层次(如第2和第3层)。
  2. 在FF++数据集上进行训练,并通过celeb-DF进行跨数据集评估。

全部评论 (0)

还没有任何评论哟~