半监督学习调研

阅读量：

半监督学习：少量数据wiz label + 大量数据without label

论文：Temporal Ensembling For Semi-supervised Learning

首先引入一个background knowledge，

Exponential Moving Average :

为撒要叫exponential呢？从公式中可以看到，在当前的vt中，时间上更久远的v所占的成分呈指数级下降，作为对比，Simple Moving Average则是等权平均一段时间内的序列值

Π-model ：对网络做dropout regularization（随机丢弃其中的一部分参数），同一输入（无标签数据）复制两份随机加上input augmentation（如翻转、平移、遮挡等）放到网络里跑，输出的差值平方加到原来的损失中进行梯度下降

（一个问题：无标签数据的cross entropy是怎么得到的？是用pseudo label还是什么呢）

原理：输入数据没有标签，但我们认为，即使加上一些随机性扰动，同一网络提取的深层次本质特征应该是相似的，因此可以作为衡量模型好坏的一个标准

Temporal Ensembling ：1 无标签数据经过网络得到的结果 2 同一组数据各个epoch的 预测结果 EMA加权得到的总的预测结果二者预测结果的square difference作为loss的一部分加到总损失中进行梯度下降

原理：对于一个正确分类的网络，每个epoch的运行结果应该是相似的，因此可以使用之前epoch的预测结果集成到当前输出中（不知道理论上怎么说明，至少论文作者是这么认为的，结果也证明是有效的）

论文：Mean teachers are better role models

Mean Teacher ：一个网络复制两份，一份作为student model，另一份是teacher model，使用student中间层的参数，EMA加权更新teacher的weight

Q1 怎么保证teacher model的性能优于student model？

teacher model的weight是由student model权重EMA迭代产生

Q2 为什么说temporal ensembling每一个epoch进行一次EMA，而mean teacher每个step进行一次？

temporal ensembling中要把所有数据全部跑一遍再计算EMA，mean teacher可以每个step都更新参数

Q3 具体的训练流程

1 初始化student model和teacher model（完全相同）

2 对于dataloader的每一个数据，forward两次。student得到的结果与ground truth计算cross entropy，用student的参数经过EMA加权得到teacher的参数，teacher模型得到的预测结果和student计算consistency loss（MSE），由于使用的是resnet，total loss=cross entropy loss + consistency loss + residual loss

consistency cost

3 基于上面得到的损失函数进行随机梯度下降

ps.1 每次循环teacher网络的参数都会更新，因此EMA不是每个epoch进行一次

ps.2 EMA的decay开始设定得很大（0.999）（即之前的weight占比很小），随着teacher和student的weight参数差别减小，decay逐渐减小

参考资料

[1] 【半监督学习】Π-Model、Temporal Ensembling、Mean Teacher

https://www.cnblogs.com/wuliytTaotao/p/12825797.html

[2] Temporal Ensembling for Semi-Supervised Learning

https://arxiv.org/abs/1610.02242

[3] Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results

https://arxiv.org/abs/1703.01780

[4] mean teacher

全部评论 (0)

还没有任何评论哟~

半监督学习调研

半监督学习：少量数据wizlabel+大量数据withoutlabel 论文：TemporalEnsemblingForSemisupervisedLearning 首先引入一个backgroundk...

半监督学习研究

昨天阅读了半监督学习的一些综述，整理如下：在机器学习的实际应用中，如网页分类、文本分类、基因序列对比、蛋白质功能预测、语音识别、自然语言处理、计算机视觉和基因生物学，很容易找到海量的无类标签的样例，...

监督学习、无监督学习、半监督学习

监督学习、无监督学习、半监督学习监督学习、无监督学习、半监督学习监督学习无监督学习半监督学习监督学习、无监督学习、半监督学习监督学习特点：训练过程中样本都是有标签的。

半监督学习

半监督学习 1.LabelSpreading 1.1简介 1.2具体实现 1.3代码及示例 1.3.1构建数据集 1.3.2使用labelspreading半监督学习参考文献在使用机器学习进行训练...

半监督学习

目前知道最科学的定义是来自《IntroductiontoSemisupervisedLearning》，这里只给出一个自我感觉良好的说法，大概就是，在有标签数据+无标签数据混合成的训练数据中使用的机器...

半监督学习

监督学习模型需要标注数据学习一个可靠的模型需要大量标注数据，但是获得有标志的数据是很昂贵的，大量的数据还是没有标注的。是否可以获取免费的标注? 验证码就是他们收集标注信息的东西我们能否利用无标注...

半监督学习

简介半监督学习SemiSupervisedLearning，SSL是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习：让学习器不依赖外界交互、自动地利用...

半监督学习

1\.半监督学习的基本概念 1.1什么是半监督学习？半监督学习（SemiSupervisedLearning,SSL）是一种机器学习方法，结合了少量标注数据（labeleddata）和大量未标注数据...

半监督学习模型: 半监督的SVM

1\.SVM模型 SVM模型优化的损失函数：如果结构损失中的2范数换成1范数： 2\.半监督的SVM 考虑到无标签样本，如果无标签样本在SVM模型中预测成负类或者正类，只要它与决策面的距离少于单位距...

【半监督学习论文】基于半监督学习的语言生成模型研究

作者：禅与计算机程序设计艺术 1\.简介近年来，随着大规模文本数据的快速增长、训练数据量的增加以及深度神经网络模型的普及，在自然语言处理领域的深度学习模型也取得了很大的进步。受限于真实世界的数据集的...

是否确定退出登录?

半监督学习调研

全部评论 (0)

相关文章推荐

半监督学习调研

半监督学习研究

监督学习、无监督学习、半监督学习

半监督学习

半监督学习

半监督学习

半监督学习

半监督学习

半监督学习模型: 半监督的SVM

【半监督学习论文】基于半监督学习的语言生成模型研究