2018 Dataset Distillation

阅读量：

数据集蒸馏

作者：Tongzhou Wang、Jun-Yan Zhu、Antonio Torralba、Alexei A. Efros

机构：Facebook、MIT CSAIL、UC Berkeley

数据集蒸馏

背景

目前存在的问题

贡献

方法介绍

3.1 数据集的蒸馏方法：单步迭代蒸馏

3.2 随机初始化蒸馏

3.3 简单线性情况的分析

3.4 单步迭代蒸馏拓展到多步迭代蒸馏

3.5 不同初始化方式对比

3.6 不同目标对象的蒸馏

实验结果

蒸馏图像效果

四种不同初始化比较

快速微调结果

总结

背景

训练最先进的神经网络模型需要的数据集规模越来越庞大，这对于内存以及训练资源的需求越来越高，所以，将庞大的数据集高效地进行压缩是一个十分重要的研究方向。

传统的数据集压缩方法是将原数据集去掉不重要的部分，提炼为子集，这一方法的实际效果欠佳。

作者从知识蒸馏中得到启发，传统的知识蒸馏目的是从复杂模型中蒸馏出知识让简单模型进行学习，从而让简单模型的性能能够接近复杂模型，类比提出了数据集蒸馏。数据集蒸馏定义为：固定训练的模型，从大型训练数据集中蒸馏知识让小型训练集学习，从而让小型数据集训练的模型性能能够接近在大型数据集上训练的模型。

目前存在的问题

为什么数据集蒸馏是有效的呢？/是否能将一个数据集压缩成一小组合成数据样本?

传统观点认为数据集蒸馏是不行的，因为合成训练数据不遵循真实数据的分布，理论上认为合成数据样本无法训练一个好的分类器。

贡献

1.提出了数据集的蒸馏方法

2.推导了在线性网络下，达到与完整数据集训练相同性能所需的蒸馏数据大小的下界；

3.在MNIST、CIFAR10上验证了合成数据训练分类器的有效性；

4.通过蒸馏数据集完成预训练模型的快速微调工作；

5.完成有害数据攻击应用，通过蒸馏图像快速攻击训练好的分类器对某一个类的识别准确率。

方法介绍

3.1 数据集的蒸馏方法：单步迭代蒸馏

真实数据集 ，期望能得到一个合成数据集，****

随机初始化模型参数**** ，在蒸馏数据上迭代一次，

设置损失函数 L，目标函数如下，使用L进行反向传播更新蒸馏数据，

3.2 随机初始化蒸馏

在训练过程中编码了真实数据和一个固定的模型参数，故泛化能力弱。所以将模型参数推广到一个特定分布，目标函数改变为下，其余步骤如3.1所示

3.3 简单线性情况的分析

结论：对于一个二元损失的线性模型来说，在相同的一个梯度下降步骤，蒸馏数据的数量至少要大于真实数据的向量维度值才能达到相同的性能。证明过程如下：

对于一个真实数据集***，训练一个二元线性模型，损失函数如下，d代表N个数据，每个数据维度为D，t代表D个数据标签，维度为1，权重矩阵为θ（D1）

蒸馏数据为 ,训练一个梯度之后

此时，希望对于任意都能满足在训练集上相同的测试性能，假设为，满足上式，真实数据和标签d，t应该满足下式

代入得：

对于任意都成立，故应满足dd满秩且M>=D

3.4 单步迭代蒸馏拓展到多步迭代蒸馏

单步迭代蒸馏：

多步迭代蒸馏：

其余步骤如3.2**，** 使用反向梯度计算优化策略加快梯度计算，反向梯度优化将必要的二阶项表述为有效的Hessian-vector积

3.5 不同初始化方式对比

使用了四种初始化方式：随机初始化、固定初始化、随机预训练权重、固定预训练权重

3.6 不同目标对象的蒸馏

蒸馏用于恶意数据中毒：通过蒸馏数据对训练好的分类器再次训练一个梯度下降步骤，破坏分类器对于某个类的分类准确率。

目标函数如下：

总的算法如下：

实验结果

蒸馏图像效果

固定网络：

随机初始化网络：

四种不同初始化比较

快速微调结果

总结

提出了数据的蒸馏方法，使用真实数据在蒸馏模型上进行测试作为损失函数，反向传播更新蒸馏数据，缩小测试损失；证明了合成数据对于训练模型的有效性，但准确率还有较大提升空间，可以尝试推广到更高分辨率的数据集上。

全部评论 (0)

还没有任何评论哟~

2018 Dataset Distillation

数据集蒸馏作者：TongzhouWang、JunYanZhu、AntonioTorralba、AlexeiA.Efros 机构：Facebook、MITCSAIL、UCBerkeley 目录数据集...

A Comprehensive Survey of Dataset Distillation

本文是蒸馏学习综述系列的第三篇文章，《AComprehensiveSurveyofDatasetDistillation》的一个翻译。数据集蒸馏综述摘要 1\.引言 2\.背景 2.1形式化数据集...

DATASET DISTILLATION 论文总结

以往的方法是不断地输入数据集，通过反向传播迭代的方法，更新网络权重，从而达到想要的训练结果。这篇论文提供了一个新的角度，对于分类网络来说，首先根据原来的数据集和网络的初始化权重（固定或随机），通过反向...

【KD】2023 NeurIPS Does Graph Distillation See Like Vision Dataset Counterpart?

简介在大规模图数据集上进行GNN训练是一个艰巨的挑战。特别是在增量学习和图结构搜索这些经常需要重复训练的场景中，训练图模型不仅消耗大量时间，还对显存和计算能力提出了严峻要求。

【知识蒸馏2018】Knowledge Transfer via Distillation of Activation Boundaries Formed by Hidden Neurons

【知识蒸馏2018】KnowledgeTransferviaDistillationofActivationBoundariesFormedbyHiddenNeurons 论文：https://arx...

CVPR 2023 精选论文学习笔记： Minimizing the Accumulated Trajectory Error to Improve Dataset Distillation

我们首先给出关于蒸馏方法的四种分类标准：标准1：数据集蒸馏方法类型知识蒸馏：这种方法涉及将知识从大型复杂模型传输到较小、更简单的模型。这是通过训练较小模型来模仿较大模型的预测来实现的。知识蒸馏可以...

【知识蒸馏论文解读】Dataset Distillation 创新性十足的数据集蒸馏

写在前面最近对数据集蒸馏比较感兴趣，抽时间看了下这篇经典的数据蒸馏论文《DatasetDistillation》，它是属于knowledgedistillation领域的工作。

Knowledge Distillation

从模型压缩的角度调查了有关蒸馏相关的进展。与视觉应用型论文不同模型压缩的论文开源的比例并不多，相比较之下蒸馏相关工作算是开源比例大的。下面主要从是否开源或实现两方面按照发表时间列出相关论文和实现。并在...

Scale Decoupled Distillation

摘要 Logit知识蒸馏因其实用性在近年来的研究中越来越受到重视。然而，与特征知识蒸馏相比，它的性能往往较差。在本文中，我们认为现有的基于Logit的方法可能是次优的，因为它们只利用了耦合多个语义知识...

Classifier-Score-Distillation

AI生成3D模型最难的一关，终于被搞定了。重塑3D生成核心理论：VAST、港大、清华用「零」训练数据生成了3D模型无需任何训练数据，只需对着模型描述一句话，如「一个做作业的香蕉人」：就能生成符合描...

是否确定退出登录?

2018 Dataset Distillation

数据集蒸馏

背景

目前存在的问题

贡献

方法介绍

3.1 数据集的蒸馏方法：单步迭代蒸馏

3.2 随机初始化蒸馏

3.3 简单线性情况的分析

3.4 单步迭代蒸馏拓展到多步迭代蒸馏

3.5 不同初始化方式对比

3.6 不同目标对象的蒸馏

实验结果

蒸馏图像效果

四种不同初始化比较

快速微调结果

总结

全部评论 (0)

相关文章推荐

2018 Dataset Distillation

A Comprehensive Survey of Dataset Distillation

DATASET DISTILLATION 论文总结

【KD】2023 NeurIPS Does Graph Distillation See Like Vision Dataset Counterpart?

【知识蒸馏2018】Knowledge Transfer via Distillation of Activation Boundaries Formed by Hidden Neurons

CVPR 2023 精选论文学习笔记： Minimizing the Accumulated Trajectory Error to Improve Dataset Distillation

【知识蒸馏论文解读】Dataset Distillation 创新性十足的数据集蒸馏

Knowledge Distillation

Scale Decoupled Distillation

Classifier-Score-Distillation