Advertisement

半监督学习总结

阅读量:

半监督学习:

部分样本有标记,但是大部分样本无标记

解决办法:

主动学习+专家知识

Or

半监督学习

半监督学习 应用需求非常强烈,因为大量数据都是未标记的,标记成本高

半监督学习的基本假设:

聚类假设: 即假设数据存在簇结构****

Or 流形假设

半监督学习方法:

一、生成式方法:

假设有潜在模型存在;当处理未标记化的分类问题时,在数据中缺失的相关参数;我们利用EM算法的最大似然估计方法来求解。

——假设的模型是关键

二、半监督SVM

对于SVM,试图找到最大间隔划分超平面

半监督SVM ——低密度分隔

针对未标注数据,S3VM旨在寻找会将两类可标记样本区分开来,并在多数类别占据的低密度区域穿过的划分超平面

TSVM

思想: 对于所有未标记样本实施穷举指派分类策略。 通过构建一个间隔最大化划分超平面模型实现对所有情况的统一学习与归纳,并在确定该划分超平面后即可直接完成最终的指派分类任务作为预测结果输出。

——穷举效率太低

——启发式方法:

——1)基于已标记样本建立分类器后,将未标记样本进行分类处理,则问题转化为标准SVM问题,并由此可确定出分离超平面和松弛因子的值

——2)接着,在指派样本中筛选出可能存在不准确配对的交换项,并通过反复优化直至实现训练参数的理想效果

三、半监督聚类

利用已知的一些监督信息,使无监督的聚类取得更好的效果

已知的监督信息分为两类:

必连与勿连约束

——约束k均值算法:即在k均值的聚类过程中,要满足约束条件

2)监督信息为少量有标记的样本

约束式的种子k均值算法:通过利用有监督学习得到的样本作为初始聚类中心,并在迭代过程中保持这些被选中的样本与相应类别的归属关系不变

还包括:

图的半监督学习

全部评论 (0)

还没有任何评论哟~