【WACV 2021】零样本目标检测知识蒸馏:Data-free Knowledge Distillation for Object Detection
WACV 2021
WACV 2021
WACV 2021
论文地址:
- 主要问题:
- 主要思路:
详细阐述了实现步骤 - 具体实现:
- 数据生成:
-
边界采样:
-
支持微分的数据增强方法:
-
基于零样本的知识蒸馏技术:
-
实验结果:
-
联系作者:
-
我的公众号:
-
论文地址:
The paper introduces a novel knowledge distillation framework for object detection that operates effectively in a data-free environment. The proposed method leverages teacher-student knowledge transfer without requiring access to training data, thereby enabling efficient and scalable detection models. The framework is validated through extensive experiments on standard benchmarks, demonstrating its capability to achieve state-of-the-art performance. The approach is particularly valuable in scenarios where data scarcity or privacy concerns are paramount. By distilling the teacher model's knowledge into a compact student model, the method facilitates real-time inference while maintaining high accuracy. This advancement represents a significant step forward in the field of computer vision, offering practical solutions for deploying robust detection systems in resource-constrained environments.
主要问题:
主要思路:
该算法旨在开发一种称为DeepInversion for Object Detection(DIODE)的方法,以实现从无标注数据中蒸馏目标检测任务上训练的神经网络的知识表示。
在无需数据的情况下,DIODE 从一个已训练的教师模型中生成图像,不依赖于任何先验领域知识、生成器网络或预先计算的激活,采用了与 DeepDream 类似的算法。
DIODE 依赖于两个关键组件:(1)可微的数据增强算法集合,旨在通过提高图像保真度和蒸馏效率来增强性能;(2)一种新型的自动边界框和类别采样方案,能够生成大量具有不同空间和类别对象集的图像,从而提升模型的泛化能力。
通过引入拼接方法和假阳性采样方法,作者成功地提高了生成图像中对象的密度。

具体实现:
数据生成:
假设输入数据为\mathbf{x}_{i n v},其具有形状N×3×H×W,并基于已训练好的预处理模型Φ,我们采用正则化优化方法,从随机噪声初始化的每个像素\mathbf{x}_{i, c, u, v} \sim\mathcal{N}(0,1)出发进行优化,目标是使得生成图像与输入数据保持高度一致。
\mathbf{x}_{\text{inv}} = \min _{\mathbf{x}} \mathcal{L}_{\text{detection}}(\Phi(\mathbf{x}), \mathbf{Y}) + \mathcal{R}_{\text{DI}}(\mathbf{x})
其中,\mathcal{R}_{D I} 是一个用于防止对抗样本影响的正则化项,其目标是模仿训练教师模型时所生成图像的分布模式,从而保证生成数据的高质量和真实性。
\mathcal{R}_{D I}由两部分构成,具体包括:在 DeepDream 中,用于图像先验的先验项\mathcal{R}_{prior},以及在 DeepInversion 中的 BN 正则化项\mathcal{R}_{BN},用于正则化特征分布。
\mathcal{R}_{D I}(\mathbf{x})=\mathcal{R}_{\text {prior }}(\mathbf{x})+\mathcal{R}_{B N}(\mathbf{x})
其中,\mathcal{R}_{prior} 检查输入的总变化、\mathcal{R}_{RTV} 和 L2 范数:
\mathcal{R}_{\text {prior }}(\mathbf{x})=\alpha_{T V} \mathcal{R}_{T V}+\alpha_{l_{2}}\|\mathbf{x}\|_{2}^{2}
第一项通过最小化其 L1 距离来鼓励相邻像素具有相同的强度:
\mathcal{R}_{T V}表示为在图像中所有像素之间的水平和垂直差异的总和。具体来说,它等于对每个通道c,每个像素位置(i, c, u, v),计算其与右侧像素(i, c, u+1, v)和下侧像素(i, c, u, v+1)的差异的绝对值的累加。
通过该方法生成的数据,其呈现出平滑的特性,并且能够有效地作为自然图像的先验信息。
第二项中的 ||x||^2_2 则用于防止生成的图像在优化过程中过饱和
该方法通过正则化\mathcal{R}_{BN}来实现缓存检测器中BN层训练数据的平均特征统计信息的利用,从而使得生成合成数据的网络编码能够从低级到高级地组织有效的特征分布。
该网络的鲁棒性\mathcal{R}_{B N}(\mathbf{x})由参数\alpha_{B N}加权的各层均值\mu_{l}(\mathbf{x})与目标均值\mu_{l}^{B N}之间的L2范数之和构成,同时各层方差\sigma_{l}^{2}(\mathbf{x})与目标方差\sigma_{l}^{2 B N}之间的差的绝对值也纳入考量。

边框采样:
该部分旨在为生成的数据集 \mathbf{x}_{k} \in \mathbb{R}^{3 \times H \times W} 生成伪目标 \mathbf{Y}_{k} \in \mathbb{R}^{6},从而使得我们可以有效地采样大量边界框和类别标签,以指导生成具有高度多样性的图像。
以提升目标密度为目标,作者提出了两种方法:拼接策略和假阳性预测采样(\mathbf{Y}_{FP} 采样)。这些方法旨在通过拼接图像或调整采样策略来优化目标检测的效果。
拼接策略将多个一个标签生成的图像网格化,以创建多目标图像
作者发现,\mathcal{R}_{T V}模型除了能够生成初始化的目标\mathbf{Y}之外,还会导致上下文相关对象的出现,即为所指的假阳性对象。

原本这些假阳性目标原本会在优化目标函数的过程中因为被最小化而受到抑制的影响,作者认为我们可以筛选出较高得分的假阳性目标进而提升生成目标的多样性。
可微的数据增强:
作者发现仅仅使用上述方案可能导致模型在优化过程中快速收敛,从而导致图像保真度和通用性过早饱和。而在反向传播算法中,数据增强的一个关键要求是可微性。
因此,作者提出了满足这一约束条件的增强策略。通过随机水平翻转、x-y平移抖动、随机亮度变化、随机对比度变化以及随机切割等手段,实验结果表明,这些策略能够有效提升 \mathbf{x}_{i n v} 在视觉保真度和通用性方面的性能。
零样本知识蒸馏:
该方法旨在识别深度目标检测器的关键特征。基于蒸馏知识的模拟学习范式,作者不仅利用真实标签进行训练,还实现了学生模型与教师模型预测结果的一致性。值得注意的是,我们仅采用教师模型对输入 \mathbf{x} 的预测结果作为优化学生模型的指导。
Φ_stu被定义为最小化Φ在所有训练样本上的损失函数之和,其中损失函数L_mimic被定义为Φ(x)与Φ_stu(x)之间L2范数的平方。即,Φ_stu = min_Φ Σ_{x∈X} L_mimic(Φ(x), Φ_stu(x)),而L_mimic(Φ(x), Φ_stu(x)) = ||Φ(x) - Φ_stu(x)||_2²。
实验结果:

联系作者:
微信号:Sharpiless
作者的其他主页:
:<>
AI Studio:https://aistudio.baidu.com/aistudio/personalcenter/thirdview/67156
我的公众号:

