《Selection via proxy: efficient data selection for deep learning》论文研读
一、 论文信息
1. 论文题目
Seletion via proxy: efficient data selection for deep learning
通过代理进行选择:深度学习的高效数据选择
2. 作者
Cody Coleman, Christopher Yeh, Stephen Mussmann, Baharan Mirzasoleiman, Perter Baillis, Percy Liang, Jure Leskovec, Matei Zaharia
单位:斯坦福大学
3. 发表信息
ICLR 2020
二、 研读笔记
0. 摘要
- 存在问题:现有的数据选择方法往往依赖于需要学习的特征表示,因而在深度学习中应用成本较高。
- 本文解决思路:通过一个小型代理模型进行数据选择。
- 方法思路:通过去除目标模型的隐藏层,采用更小的结构,训练更少的代数,从而创造的代理模型比原有模型训练快一个数量级。
1. 引言
-
主动学习:通过重复地在一小部分标注数据上训练模型,并给予模型的不确定性而选择额外的数据进行标注,达到从一众未标注的数据中选择样本进行标注的目的。
-
核心集选择:从一众标注或未标注的数据中选择一个子集,通过选择代表性样本,使子集能够准确逼近全部数据集。
-
现有问题:
(1)现有的主动学习方法和核心集选择方法,在其选择样本前,都需要一些特征表示,因此,深度主动学习需要大量的标注数据。
(2)此外,批主动学习仍然需要对于每一批进行全模型训练,这对于大规模模型而言是昂贵的。
(3)核心集通过采用手工设定的特征和简单模型、预训练辅助任务来降低深度学习模型的训练时间。 -
本文方法的主要思想:SVP使用来自单独的、计算计算复杂度低的代理模型的特征表示来代替来自更大更精确的目标模型的表示。
-
实验数据集:CIFAR10,CIFAR100,ImageNet,Amazon Review Polarity,Amazon Review Full。
-
对比方法:
(1)主动学习:最小置信不确定采样,贪婪k中心方法
(2)核心集选择:最大熵不确定采样,贪婪k中心
2. 方法
2.0 概述
- SVP示意图

(1)主动学习:采用同传统方法相同的流程,不同的是用代理模型替换原有的目标模型。
(2)核心集选择:基于代理模型,学习数据的表示,并选择样本用于训练目标模型。
2.1 主动学习
-
给定一组无标注数据U = \left\{ \mathbf{x}_i\right\}_{i\in[n]}。
-
设每个样本i.i.d地来自\it{X},其标签来自\it{Y},即
(\mathbf{x}_i, y_i)\sim p_{Z}, Z=\it{X}\times\it{Y} -
初始化:随机选择出部分样本进行标注,记为s^0=\left\{ s^0_j \in [n]\right\}_{j\in[m]}。
-
给定U,损失函数l,初始化随机标注子集\left\{ y_{s^0_j}\right\}_{j\in[m]},主动学习的目的是选择b个样本s=s^0 \cup\left\{s_j\in[n] - s^0\right\}_{j\in[b-m]},是的模型A_S误差较低。
