Advertisement

semi-supervised learning

阅读量:

半监督学习[1]

当依据手头仅有的标注数据时, 会将某些虽无直接标注但可观察的数据纳入分析范畴, 而这些数据的处理将基于以下两个假设:

  • 聚类假设(clustering assumption):基于聚类分析的方法假定了数据间遵循相同的分布模式,在同类数据之间存在较高的相似性特征。
    • 流形假设(manifold-based assumption):流形学习方法认为输入数据服从于一个低维流形分布,在邻近的样本点之间表现出一致的预测关系。

主要方式:

  • 生成模型(generative models):自我监督学习
    • 图模型(graph models):标签传播过程(Label Propagation Process)
    • 低密度分割法(low-density separation techniques):为使分类边界穿过这些区域的特殊处理方式包括支持向量三明治机(S3VMs)
    • 不一致方法(disagreement-based methods):这实际上是自监督学习的一种形式,在该过程中算法会生成多个学习器,并通过它们之间的不一致来驱动学习过程不断向前推进,在此过程中联合训练(Co-Training)起到关键作用

主要架构:

  • 非监督预训练阶段中, 首先通过利用未标注数据进行非监督预训练以获得初始模型, 然后通过使用标注数据进一步优化模型结构
    • 在伪有监督学习过程中, 首先通过对带标签的数据集提取特征表示, 然后将这些特征用于对未带标签的数据进行分类预测
    • 将那些分类准确率较高的样本加入到重新平衡后的训练集中, 并反复迭代这一过程直至收敛稳定

一致性正则化

Consistency Regularization 的核心理念在于:即使输入受到轻微扰动影响,预测结果必然是稳定的和一致的。[2]

Ladder Networks For Semi-Supervised Learning

Ladder网络通过引入跳跃连接来缓解特征传递过程中的信息丢失问题,并通过无监督学习与有监督学习的融合最大限度地保留有用信息的同时去除冗余特征以有效降低模型上层负担

π model

关键思想是通过随机图像增强技术为标记数据和未标记数据分别生成两幅增强后的图像。随后,在每一幅图像上分别应用带有 dropout 层的深度学习模型进行标签预测。通过计算这两个预测结果的平方差来衡量两幅增强图像标签的一致性程度。对于每张带有标签的原始图片样本,在计算完一致性的基础之上还计算其交叉熵损失。

在这里插入图片描述

Temporal Ensembling For Semi-Supervised Learning

核心概念是将过去预测的结果作为指数移动平均的一个观测数据点。

另一个观测数据点可通过常规方法对图像增强,并通过带Dropout机制的模型进行标签预测。

通过计算当前预测值与EMA预估值之间的平方差来构建一致性损失函数。

同时,在标注过的图像上计算交叉熵损失项。

总_loss由这两个子项加权求和得到;其中权重w(t)决定了密度估计部分在整个_loss中的占比比例。

在这里插入图片描述

Mean teachers

在这里插入图片描述

[3]Mean Teacher是 Temporal Ensembling 的改进版,Mean Teacher 认为 Temporal Ensembling 对模型的预测 predictions 进行指数滑动平均(Exponentially Moving Average,EMA)并不好,因为 Temporal Ensembling 每个 epoch 才进行一次 EMA,而如果改成对模型权重进行 EMA 的话,每个 step 就可以进行一次,这样岂不是更好。(在 mini-batch 训练模式中,一个 epoch 有很多 steps,一个 step 理解为模型权重的一次更新。batch size 一定时,数据集越大,一个 epoch 含有的 step 数越多。)

在 Mean Teacher 的框架下, 其核心机制是通过EMA算法来生成教师分支. 相应的学生模型也随之建立起来, 并且该方法在知识蒸馏和模型压缩相关的研究中得到了广泛应用. 其中学生分支即是我们通常所训练的经典教师模型. 教师分支则采用学生的加权平均结果生成, 同时这些教师分支不参与反向传播过程.

Mean-Teacher框架要求对每个未标记实例完成两次前向传播:分别为学生模型和教师模型各进行一次。

Mean Teacher 在论文中采用了动态EMA衰减策略,在ramp-up阶段设置了EMA衰减因子为0.99,并逐步调整至后续训练期的衰减因子为0.999。具体而言,在student模型初期快速收敛的过程中(即student模型快速学习或提升速度较快的时候),teacher模型采用了较短的时间窗口以遗忘旧权重(即不正确的学生网络权重);而当学生模型收敛速度变慢时(即student提升速度较慢的时候),则适当延长了teacher对历史权重的记忆时间(即允许教师网络保留更多过去的权重信息)。

Virtual Adversarial Training

这种方法基于对抗性攻击概念的一致性正则化机制设计而来。第一步是获取一张原始图像及其对应的抗 distortion 变体,并通过优化过程使其与原始图像的模型输出之间的 KL 散度最大化。

Unsupervised Data Augmentation

该方法同时适用于图像数据和自然语言文本。其核心概念在于通过自动增强技术生成具有标签的增强版图像。通过计算这两个预测分布之间的KL散度来实现一致性损失的最小化。

混合方法

混合方法的核心目标是融合了前人研究的思路,并采用自训练和一致性正则化等技术以及辅助提升措施来显著提升了半监督学习的效果。

MixMatch

  • 已标记的图像将被生成一个对应的增强版本;而未被标记的样本则会生成K个不同的增强样本,并针对这K个样本执行一次完整的模型推断。
  • 接下来我们将这K+1个样本(包含原始已标记样本)组合后随机打乱顺序,并将其划分为两个独立的部分:有标注的数据集与无标注的数据集。
  • 现在,在有标注的数据集中我们会采用真实标签混合策略来评估模型预测结果;而对于无标注的数据集,则会比较其预测结果与这些预设伪标签之间的MSE误差(Mean Squared Error)。最后我们将这两者的评估结果按照一定权重λ进行加权求和以作为整体损失函数。

FixMatch

我们利用交叉熵损失函数对带标注图像数据集进行监督学习训练一个深度学习模型。针对每一张无标注样本图片,分别施加弱增强和强增强处理得到两张增强后图像样本。将弱增强处理后的样本输入到预训练好的目标检测模型中获取预测结果。接着计算置信度最高的类别概率值并与其设定阈值进行比较判断。若该概率值超过设定阈值,则将其标记为对应的类别并标记为伪样本;随后利用强增强处理后的样本再次输入目标检测模型获取分类预测结果。为了进一步提高模型性能我们对该预测方法与基于交叉熵损失生成伪标签的方法进行了评估并将两者之间的差异通过综合损失函数进行融合优化以提升整体性能水平

不同方法的对比[2]

在这里插入图片描述

Reference

[1] http://kakack.github.io/2020/09/基于深度学习与计算机视觉的知识体系构建及其实践探索——从零开始的理解路径图解/CV领域中的理论基础与实践应用/
[2] https://zhuanlan.zhihu.com/p/46893709
[3] https://www.cnblogs.com/wuliytTaotao/p/12825797.html

全部评论 (0)

还没有任何评论哟~