Advertisement

半监督学习

阅读量:

构建可靠的监督学习模型依赖于高质量的标注数据。然而获得具有标记的数据往往成本高昂。大量的 unlabeled 数据仍然未被标注。

是否可以获取免费的标注?

在这里插入图片描述

验证码本质上是用于收集标注数据的工具。
我们是否可以通过仅依赖无标注数据来训练出性能更为卓越的模型?
是否存在某些无标注数据可用于提升分类性能?假设同一类别内的样本具有内在的一致性分布特征,则这些数据有助于建立更加清晰和明确的分类界限。
人类通常采用半监督学习的方法来提升模型性能。

在这里插入图片描述

婴儿通过听单词和看物体建立单词与物体的映射关系。
17个月大的婴儿在听单词的同时观察周围环境中出现的物体。
通过反复听到这个单词并观察到相关物体后,他们的关联能力较强。
如果从未听到过这个单词并观察过相关物体,则他们的关联能力较弱。

半监督学习

通用想法:同时利用有标注数据和无标注数据学习

半监督分类/回归
给定: 标注数据 ? = { (?1 ,?1) ,(x2,y2),(x3,y3),(xl,yl)},无标注数据

在这里插入图片描述

学习任务的目标是建立一个分类器,并优于仅依赖标注数据的学习方式? 半监督聚类/降维 给定标注数据:

? 5 56%

主要目标是进行聚类分析或降维处理。具体来说,需对数据施加一些约束条件。对于聚类方法而言,要求是任意两点要么被归为同一簇,要么被明确分开。而在降维过程中,我们要求处理后的任两个样本点需保持相对接近。

为什么叫半监督学习?

有标签学习(分类, 回归) → 部分有标签学习 分类/回归 → 直推分类/回归 → 部分有标签聚类 → 无标签聚类

平滑假设(smoothness assumption)

半监督学习具有较高的效率,并且需要遵循一定的前提条件。
半监督平滑假设:
在高密度区域中的两个样本若距离相近,则其对应的预测结果也应保持相似性。
监督学习的平滑假设(用于对比):
在标准的空间分布下,若两个样本的位置较为接近,则其预测结果之间也应体现出显著的一致性。

在这里插入图片描述

聚类假设(cluster assumption)

  • 聚类假设
    如果点在同一个簇,那么它们很有可能属于同一个类

  • 聚类假设的等价公式:

  • 低密度分隔:决策边界应该在低密度区域

在这里插入图片描述

流形假设(manifold assumption)

高维数据大致会分布在一个低维的流形上

邻近的样本拥有相似的输出

邻近的程度常用“相似”程度来刻画

在这里插入图片描述

主要的半监督学习模型

自我训练

多视角学习

生成模型
数据采样自相同的生成模型.
eg. 混合高斯

低密度分割模型

例如. Transductive SVM [Joa99]

  • 基于图的算法

数据被表示成图中的节点,边代表节点对的距离
基于流形假设.

  • 半监督聚类

重点说一下生成模型

生成模型

带标签的数据 (xl,yl) :

在这里插入图片描述

在每个类别服从高斯分布的情况下,请确定决策边界的位置?
模型参数 ? = {?1 ,?2 ,?1 ,?2 ,∑1 ,∑2 }
高斯混合模型:

在这里插入图片描述

分类:

在这里插入图片描述

最可能的模型和它的决策边界

在这里插入图片描述

加入无标签数据

在这里插入图片描述

加入无标签数据, 最可能的模型和它的决策边界

在这里插入图片描述

上面决策边界的不同,是由于模型最大化的目标不同

在这里插入图片描述

生成模型用于半监督学习

基于生成模型的假设
完整的生成模型 ?(?,?|?)
用于半监督学习的生成模型:
我们关注的重点量:

在这里插入图片描述

寻求生成模型以实现极大似然估计的目标;
生成式模型的应用实例;
在半监督学习场景下广泛应用于;

高斯混合模型(GMM)

复制代码
* 图像分类
* EM算法

混合多项分布 (朴素贝叶斯)

复制代码
* 文本归类 、
* EM算法

隐马尔科夫模型(HMM)

复制代码
* 语音识别
* Baum-Velch 算法

全部评论 (0)

还没有任何评论哟~