Unsupervised Feature Learning via Non-Parametric Instance Discrimination
论文链接:Unsupervised Feature Learning via Non-Parametric Instance Discrimination
该方法表现出显著的效果
摘要
基于有标签数据训练的神经网络分类器能够有效地捕捉图像间的视觉相似性。假设我们能够通过训练基于实例(将每个样本视为独立类别)的分类器来替代基于类别的分类器,并获得能捕获视觉相似性的特征表示。我们将这一过程总结为非参数化实例级判别模型 ,并采用**噪声对比估计方法(Noise-Contrastive Estimation, NCE)**来解决由大量实例类别带来的计算挑战。实验结果表明,在无监督学习框架下,我们方法在ImageNet数据集上的性能超越了现有最优方法。通过增加更多的训练数据和采用更先进的网络架构设计,在此过程中我们的方法能够持续提升分类精度。通过微调学习到的有效特征表示,在半监督学习框架下与目标检测任务等其他应用领域取得了相当水平的表现。
引言
深度神经网络的发展速度之快,在计算机视觉领域掀起了一场革命性的变革。其中卷积神经网络等成功模型主要依赖于大量标注数据的支持,在某些领域获取高质量标注数据的成本高昂甚至不可行。
近年来无监督学习方法受到了广泛关注。
我们的无监督学习方法主要基于以下几点观察:首先,在ImageNet上获得分类结果时发现top-1错误率往往远高于top-5错误率;其次softmax层第二大响应对应的类别与实际类别之间存在较高的视觉相似性。
这些观察表明判别式学习方法能够自动发现类别间的视觉特征相似性而无需额外指导;换句话说这种视觉上的相似性是数据本身就能学到的而不是依赖语义标签。
基于此我们提出了一种将有监督问题细化为基于实例的学习框架。
这种方法的核心思想在于探索如何通过实例分类来提取反映视觉相似性的特征表达:每张图片都是独特的与同类图片之间具有明显的区分度。
如果我们能够构建出有效的实例级别分类器那么或许就能捕捉到不同实例间的相似特性就像基于类别的分类器一样能捕捉到类别间的共性特征。

然而面对训练集中的分类问题。对于ImageNet而言类别数量高达约一百二十万。传统的Softmax分类方法难以应对我们采用了噪声对比估计技术并通过引入额外正则项来提升模型稳定性
近期工作
近期关于无监督学习的研究工作主要包含生成式模型和自监督模型的划分。
Generative Modes
生成式模型旨在尽可能地重构数据的分布特征。典型的代表包括受限玻尔兹曼机(RBM)以及自编码器(Autoencoders)。通过提取隐空间特征的信息特性,生成式模型有助于提高分类性能。最近研究中出现了一些新型生成式模型架构,如基于深度神经网络的生成对抗网络(GAN)和变分自编码器(VAE)。
Self-supervised Learning
通过分析自身数据架构来训练,在实际应用中需要实现对特定场景下图像完整性恢复的目标。具体来说, 该模型需要预测实例中缺失的部分, 并以保持图像特征表达为核心目标, 将这些缺失部分重新补充完整。为了实现这一目标, 该任务可划分为上下文信息推断、目标计数以及空缺区域填充等子任务; 其中, 将灰度图像恢复成彩色图像可以通过深度学习算法实现颜色恢复过程, 而更为复杂的场景则可能需要完成拼图任务才能达到预期效果
Metric Learning
度量学习是有监督的方法,在此不做过多讨论。
Examplar CNN
本文工作的基础,改进:非参数化,解决大规模实例训练问题
方法
我们的目标是通过无需监督的信息来学习一个特征映射:其中f_θ(x)是一个以θ为参数的卷积神经网络模型;该模型不仅能够将输入图像x转换到特征向量v上,并且还包含了图像空间中的度量关系d_θ(x,y)=||f_θ(x)−f_θ(y)||;一个好的映射应能确保视觉上相似的图像被投影到相近的位置;在无监督学习框架中,我们采用了基于实例级的学习策略;具体而言,在每个样本之间建立明确的关系表示,并通过分类器对其进行区分
Non-Parametric Softmax Classifier
Parametric Classifier
该网络的Softmax层具有可学习参数,在输入图像x时会生成特征向量v=f_\theta(x)。其对应第i个样本的概率值为:
该概率值等于输入特征向量与第i个类别对应的权重向量内积的指数值除以所有类别权重向量与输入特征向量内积指数之和。
假设该网络中的特征维度设定为128维,在面对样本数量达到120万的数据集时,该层参数总数超过了15亿个。
Non-Parametric Classifier
我们采用了L_2范数归一化方法,并使向量的模长达到1。将概率计算公式重新表述为:P(i|v)=exp(v_iTv/τ)/Σ_{j=1}n exp(v_jTv/τ)。其中τ被定义为温度参数,用于调节分布的集中程度。学习的目标是最大化联合概率密度Π_{i=1}n P_θ(i|f_θ(x_i)) ,这等价于最小化损失函数J(θ) = -Σ_{i=1}^n log P(i|f_θ(x_i))
Learning with A Memory Bank
获取条件概率P(i|v)需要用到每张图片所具有的特征集合\{v_j\}。为了避免重复计算耗时的过程而提高效率,则将这些特征储存在内存区域V中。\n\n初始阶段设置参数向量V为随机单位向量,并在此后的每个迭代步骤结束后将当前解算出的新参数f追加到该集合中。\n
Noise-Contrastive Estimation
因为图片的数量非常庞大, 计算这些概率的过程仍然非常耗时.
计算归一化的常数值Zi耗时较长,在实际应用中我们将其作为已知常数处理,并通过蒙特卡洛方法对其值进行估算:其中我们采用蒙特卡洛方法估计该值为\hat{Z}, 其中\hat{Z}表示通过蒙特卡洛方法得到的近似值。具体而言, 我们有\hat{Z}=nE_j[exp(v_j^Tf_i/\tau)]=\frac{n}{m}\sum_{k=1}^{m}exp(v_{j_k}^Tf_i/\tau)
Proximal Regularization
在传统的分类任务中存在显著差异的是我们所处理的数据类型——每个类别仅包含一个样本实例。在每一个训练周期中该实例仅会被访问一次为了维持训练过程的稳定性我们采用了特定的正则化手段即:
-\log h(i, v_i^{t-1}) + \lambda ||v_i^t - v_i^{t-1}||_2^2
这一设计有助于抑制模型过拟合现象随着模型参数不断更新当两次迭代过程中特征向量之间的差异逐渐减小时最终的整体损失函数表达式将简化为:
J_{NCE}(\theta) = -E_{P_d}\left[\log h(i, v_i^{t-1}) - \lambda ||v_i^t - v_i^{t-1}||_2^2\right] - mE_{P_n}\left[\log(1 - h(i, {v'^{t-1}}))\right]
Weighted k-Nearest Neighbor Classifier
在对测试图像进行分类的过程中, 我们首先分别计算出该图像与其训练集样本之间的余弦相似度, 并筛选出k个最为接近的样本. 通过加权投票的方式进行预测, 其中第c类满足条件:w_c=\sum\alpha_iI(c_i=c). In which case, \alpha_i=exp(s_i/\tau), where s_i, representing the cosine similarity, is calculated as s_i = \cos(\mathbf{x}_i, \mathbf{X}_{train}). In this experiment setup, \tau=0.07, and k=200.
实验
本次研究包含了四个互不相同的实验方案。第一项实验基于CIFAR-10数据集对比分析了非参数化与参数化的Softmax函数性能。第二项研究则基于ImageNet数据集系统性评估了多种无监督学习算法的效果。最终两项研究分别探讨半监督学习与目标检测技术,并验证了本方法提取出的关键特征展现出卓越的一般化能力。
Parametric vs. Non-parametric Softmax

Image Classification
Comparisions

