无监督学习和监督学习的区别
1、什么是无监督学习?
无监督学习属于机器学习领域的一种方法,在数据分析中发挥着重要作用。它通过研究数据集的整体特征及其内在关联性来揭示潜在的信息结构被称为无监督学习技术
2、无监督学习代表算法:
1、k-means算法(聚类算法)
3、什么是监督学习?
监督学习的主要任务是:对于输入数据x,在有标注数据的情况下进行模型训练以推导出对应的输出结果y。
1、通过带有标签的训练集:训练模型
2、通过训练模型,输入新事件自变量x,预测输出y
4、监督学习代表算法:
1、knn(k最近邻算法)属于分类方法。
2、贝叶斯算法、朴素贝叶斯算法,属于分类方法。
3、逻辑回归,属于回归方法。
4、线性回归,属于回归方法。
5、无监督学习vs监督学习。
监督学习方法必须依赖于X的训练数据集与测试样本集合\mathcal{Y}。从X的训练集中提取规律,并将其应用于\mathcal{Y}中的实例。而非监督学习则完全不依赖于任何特定的数据集合,在单一的数据集合中直接提取模式并进行分析。
2. 监督学习的本质即是对物体进行识别活动,在这一过程中产生的结果体现在为待识别的数据集增加相应的标签信息。因此,在构建训练数据集时必须包含预先标注好的样本实例;而无监督学习的核心仅在于分析自身拥有的数据集,并非依赖于预设的类别标签。若观察到数据呈现自然分群特征,则可依据其固有的分群特性进行分类;但无需附加任何先验分类标签作为依据。
6、何时采用哪种方法
最基本的方法是从定义出发。当存在训练数据时,则可采用相应的监督学习法;若缺乏足够的训练数据,则完全无法使用这一类方法进行操作。然而,在实际应用中,
即使缺乏足够的训练数据,
我们也可以通过人工标注部分实例作为参考数据,
将这些标注好的实例加入到待分类的数据集中,
从而改善条件后即可使用相应的监督学习法来处理。
在不同的情境下,
在正负类样本分布可能出现较大或较小的偏离时(即这种偏离可能较为显著或较为轻微),
使用 supervision 学习所获得的效果可能不如非 supervision 式的学习策略有效。
