半监督学习
构建可靠的监督学习模型依赖于高质量的标注数据。然而获得具有标记的数据往往成本高昂。大量的 unlabeled 数据仍然未被标注。
是否可以获取免费的标注?

验证码本质上是用于收集标注数据的工具。
我们是否可以通过仅依赖无标注数据来训练出性能更为卓越的模型?
是否存在某些无标注数据可用于提升分类性能?假设同一类别内的样本具有内在的一致性分布特征,则这些数据有助于建立更加清晰和明确的分类界限。
人类通常采用半监督学习的方法来提升模型性能。

婴儿通过听单词和看物体建立单词与物体的映射关系。
17个月大的婴儿在听单词的同时观察周围环境中出现的物体。
通过反复听到这个单词并观察到相关物体后,他们的关联能力较强。
如果从未听到过这个单词并观察过相关物体,则他们的关联能力较弱。
半监督学习
通用想法:同时利用有标注数据和无标注数据学习
半监督分类/回归
给定: 标注数据 ? = { (?1 ,?1) ,(x2,y2),(x3,y3),(xl,yl)},无标注数据

学习任务的目标是建立一个分类器,并优于仅依赖标注数据的学习方式? 半监督聚类/降维 给定标注数据:

主要目标是进行聚类分析或降维处理。具体来说,需对数据施加一些约束条件。对于聚类方法而言,要求是任意两点要么被归为同一簇,要么被明确分开。而在降维过程中,我们要求处理后的任两个样本点需保持相对接近。
为什么叫半监督学习?
有标签学习(分类, 回归) → 部分有标签学习 分类/回归 → 直推分类/回归 → 部分有标签聚类 → 无标签聚类
平滑假设(smoothness assumption)
半监督学习具有较高的效率,并且需要遵循一定的前提条件。
半监督平滑假设:
在高密度区域中的两个样本若距离相近,则其对应的预测结果也应保持相似性。
监督学习的平滑假设(用于对比):
在标准的空间分布下,若两个样本的位置较为接近,则其预测结果之间也应体现出显著的一致性。

聚类假设(cluster assumption)
-
聚类假设
如果点在同一个簇,那么它们很有可能属于同一个类 -
聚类假设的等价公式:
-
低密度分隔:决策边界应该在低密度区域

流形假设(manifold assumption)
高维数据大致会分布在一个低维的流形上
邻近的样本拥有相似的输出
邻近的程度常用“相似”程度来刻画

主要的半监督学习模型
自我训练
多视角学习
生成模型
数据采样自相同的生成模型.
eg. 混合高斯
低密度分割模型
例如. Transductive SVM [Joa99]
- 基于图的算法
数据被表示成图中的节点,边代表节点对的距离
基于流形假设.
- 半监督聚类
重点说一下生成模型
生成模型
带标签的数据 (xl,yl) :

在每个类别服从高斯分布的情况下,请确定决策边界的位置?
模型参数 ? = {?1 ,?2 ,?1 ,?2 ,∑1 ,∑2 }
高斯混合模型:

分类:

最可能的模型和它的决策边界

加入无标签数据

加入无标签数据, 最可能的模型和它的决策边界

上面决策边界的不同,是由于模型最大化的目标不同

生成模型用于半监督学习
基于生成模型的假设
完整的生成模型 ?(?,?|?)
用于半监督学习的生成模型:
我们关注的重点量:

寻求生成模型以实现极大似然估计的目标;
生成式模型的应用实例;
在半监督学习场景下广泛应用于;
高斯混合模型(GMM)
* 图像分类
* EM算法
混合多项分布 (朴素贝叶斯)
* 文本归类 、
* EM算法
隐马尔科夫模型(HMM)
* 语音识别
* Baum-Velch 算法
