半监督学习

阅读量：

构建可靠的监督学习模型依赖于高质量的标注数据。然而获得具有标记的数据往往成本高昂。大量的 unlabeled 数据仍然未被标注。

是否可以获取免费的标注?

验证码本质上是用于收集标注数据的工具。
我们是否可以通过仅依赖无标注数据来训练出性能更为卓越的模型？
是否存在某些无标注数据可用于提升分类性能？假设同一类别内的样本具有内在的一致性分布特征，则这些数据有助于建立更加清晰和明确的分类界限。
人类通常采用半监督学习的方法来提升模型性能。

婴儿通过听单词和看物体建立单词与物体的映射关系。
17个月大的婴儿在听单词的同时观察周围环境中出现的物体。
通过反复听到这个单词并观察到相关物体后,他们的关联能力较强。
如果从未听到过这个单词并观察过相关物体，则他们的关联能力较弱。

半监督学习

通用想法:同时利用有标注数据和无标注数据学习

半监督分类/回归
给定: 标注数据 ? = { （?1 ,?1） ,(x2,y2),(x3,y3)，(xl,yl)}，无标注数据

学习任务的目标是建立一个分类器，并优于仅依赖标注数据的学习方式？半监督聚类/降维给定标注数据：

主要目标是进行聚类分析或降维处理。具体来说,需对数据施加一些约束条件。对于聚类方法而言,要求是任意两点要么被归为同一簇,要么被明确分开。而在降维过程中,我们要求处理后的任两个样本点需保持相对接近。

为什么叫半监督学习？

有标签学习(分类, 回归) → 部分有标签学习分类/回归 → 直推分类/回归 → 部分有标签聚类 → 无标签聚类

平滑假设（smoothness assumption）

半监督学习具有较高的效率，并且需要遵循一定的前提条件。
半监督平滑假设：
在高密度区域中的两个样本若距离相近，则其对应的预测结果也应保持相似性。
监督学习的平滑假设（用于对比）：
在标准的空间分布下，若两个样本的位置较为接近，则其预测结果之间也应体现出显著的一致性。

聚类假设（cluster assumption）

聚类假设
如果点在同一个簇，那么它们很有可能属于同一个类
聚类假设的等价公式:
低密度分隔：决策边界应该在低密度区域

流形假设（manifold assumption）

高维数据大致会分布在一个低维的流形上

邻近的样本拥有相似的输出

邻近的程度常用“相似”程度来刻画

主要的半监督学习模型

自我训练

多视角学习

生成模型
数据采样自相同的生成模型.
eg. 混合高斯

低密度分割模型

例如. Transductive SVM [Joa99]

基于图的算法

数据被表示成图中的节点，边代表节点对的距离
基于流形假设.

半监督聚类

重点说一下生成模型

生成模型

带标签的数据（xl,yl） :

在每个类别服从高斯分布的情况下，请确定决策边界的位置？
模型参数 ? = {?1 ,?2 ,?1 ,?2 ,∑1 ,∑2 }
高斯混合模型：

分类:

最可能的模型和它的决策边界

加入无标签数据

加入无标签数据, 最可能的模型和它的决策边界

上面决策边界的不同，是由于模型最大化的目标不同

生成模型用于半监督学习

基于生成模型的假设
完整的生成模型 ?(?,?|?)
用于半监督学习的生成模型:
我们关注的重点量:

寻求生成模型以实现极大似然估计的目标；
生成式模型的应用实例；
在半监督学习场景下广泛应用于；

高斯混合模型(GMM)

复制代码

* 图像分类
* EM算法

混合多项分布 (朴素贝叶斯)

复制代码

* 文本归类 、
* EM算法

隐马尔科夫模型(HMM)

复制代码

* 语音识别
* Baum-Velch 算法

全部评论 (0)

还没有任何评论哟~

监督学习、无监督学习、半监督学习

监督学习、无监督学习、半监督学习监督学习、无监督学习、半监督学习监督学习无监督学习半监督学习监督学习、无监督学习、半监督学习监督学习特点：训练过程中样本都是有标签的。

半监督学习

半监督学习 1.LabelSpreading 1.1简介 1.2具体实现 1.3代码及示例 1.3.1构建数据集 1.3.2使用labelspreading半监督学习参考文献在使用机器学习进行训练...

半监督学习

目前知道最科学的定义是来自《IntroductiontoSemisupervisedLearning》，这里只给出一个自我感觉良好的说法，大概就是，在有标签数据+无标签数据混合成的训练数据中使用的机器...

半监督学习

监督学习模型需要标注数据学习一个可靠的模型需要大量标注数据，但是获得有标志的数据是很昂贵的，大量的数据还是没有标注的。是否可以获取免费的标注? 验证码就是他们收集标注信息的东西我们能否利用无标注...

半监督学习

简介半监督学习SemiSupervisedLearning，SSL是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习：让学习器不依赖外界交互、自动地利用...

半监督学习

1\.半监督学习的基本概念 1.1什么是半监督学习？半监督学习（SemiSupervisedLearning,SSL）是一种机器学习方法，结合了少量标注数据（labeleddata）和大量未标注数据...

半监督学习模型: 半监督的SVM

1\.SVM模型 SVM模型优化的损失函数：如果结构损失中的2范数换成1范数： 2\.半监督的SVM 考虑到无标签样本，如果无标签样本在SVM模型中预测成负类或者正类，只要它与决策面的距离少于单位距...

监督学习，非监督学习，半监督学习和增强学习

分成四类监督学习，非监督学习，半监督学习和增强学习监督学习：给机器的训练数据拥有“标记”或者“答案” 监督学习：银行已经积累了一定的客户信息和他们的信用卡的医院已经积累了一定的病人信息和他们最终...

半监督学习 - 半监督聚类（Semi-Supervised Clustering）

什么是机器学习半监督聚类是一种集成了有标签数据和无标签数据的聚类方法，其目标是在聚类的过程中利用有标签数据的信息来提高聚类性能。在半监督聚类中，一部分数据集有已知的标签，而另一部分没有标签。

机器学习之------监督、非监督、半监督

Unsupervisedlearning,SupervisedlearningandSemisupervisedlearning Inthecontextofmachinelearning,whati...

是否确定退出登录?

半监督学习

是否可以获取免费的标注?

半监督学习

为什么叫半监督学习？

平滑假设（smoothness assumption）

聚类假设（cluster assumption）

流形假设（manifold assumption）

主要的半监督学习模型

生成模型

生成模型用于半监督学习

全部评论 (0)

相关文章推荐

监督学习、无监督学习、半监督学习

半监督学习

半监督学习

半监督学习

半监督学习

半监督学习

半监督学习模型: 半监督的SVM

监督学习，非监督学习，半监督学习和增强学习

半监督学习 - 半监督聚类（Semi-Supervised Clustering）

机器学习之------监督、非监督、半监督