Advertisement

【从零开始学习人工智能】机器学习基础 - 03监督学习

阅读量:

监督学习

在机器学习领域中,在监督学习方面存在广泛的应用并占据核心地位。本文旨在阐述监督学习的基本概念、算法及其实际应用范围。

1. 监督学习概述

监督学习主要是基于标记的训练数据来实现预测与分类的任务。在监督学习过程中,训练数据由输入变量及其对应的目标变量或输出值组成。模型通过对输入变量与其对应的目标变量之间的关系进行建模来构建预测系统。该系统能够对新样本进行预测分析。

监督学习可以分为两种类型:

分类(Classification) :进行分类的任务属于监督学习的一种。其目标就是将输入数据划分为若干预设的类别。如可以通过邮件内容识别垃圾邮件、利用肿瘤特征判断其类型等。

回归(Regression) :回归属于一种监督学习任务,在机器学习中被广泛应用于预测连续数值型变量。基于输入特征的数据分析与建模过程, 我们可以估计或预测这些连续型变量的值. 例如, 在房地产领域中基于房屋面积, 卧室数量及地理位置等因素可以用来估计房价;而在商业领域中则可以通过分析天气状况, 经济指标等因素来预测销售量的变化趋势.

2. 监督学习算法

监督学习包括了多种多样化的算法和技术。以下是一些典型的监督学习算法:

2.1 K近邻算法(K-Nearest Neighbors,KNN)

该算法属于基于实例的学习体系,在实际应用中主要通过计算不同样本之间的距离来实现分类任务或回归预测。其核心在于将待分类样本与训练集中最邻近的K个实例进行对比分析,并依据这些对比结果推断待分类样本的属性。

2.2 决策树算法(Decision Trees)

该算法以树状结构展示分类规则,并基于属性取值系统地将数据集分隔为互不重叠的子集。基于决策树构建的方法能够实现对输入特征的分类或回归预测目标。该算法具备高度可解释性特点,在理解并解析生成模型方面表现出色。

2.3 支持向量机(Support Vector Machines,SVM)

支持向量机是一种基于两类别区分的二分类模型,在寻找最佳分界面以实现不同类别样本的有效分离的同时,在高维特征空间中最大化类别之间的间隔以优化分类性能

2.4 朴素贝叶

斯算法(Naive Bayes)

朴素贝叶斯算法遵循贝叶斯定理以及特征之间相互独立的假设用于分类的方法。该算法在文本分类以及垃圾邮件过滤等多个实际应用场景中得到了广泛应用。

2.5 线性回归(Linear Regression)

该技术是一种基础而常见的回归分析手段,在数据分析中被广泛应用。它通过构建一个基于输入变量的一阶多项式模型来进行数据拟合与预测操作。其目标是确定一条最佳拟合直线来建模输入变量与目标变量之间的关联。

除了几种监督学习算法之外,在机器学习领域还存在众多其他算法与技术。每个算法都具有特定的应用场景与特性。

3. 监督学习的应用

监督学习在各个领域都有广泛的应用,例如:

  • 自然语言处理(Natural Language Processing, NLP) :通过监督学习能够开发包括文本分类、情感分析和机器翻译在内的应用。
  • 计算机视觉(Computer Vision) :该技术可用于执行图像分类、目标检测以及人脸识别等视觉任务。
  • 金融领域 :通过监督学习能够实现信用评分模型的构建以及股票市场的风险评估。
  • 医疗领域 :在医疗健康领域中,基于监督学习的方法已被成功应用于疾病预测模型的开发以及基因序列分析。

4. 性能评估指标

在监督学习任务中占据核心地位的是模型性能评估。以下将介绍几种常见的性能评估指标:

4.1 准确率(Accuracy)

准确率是一种广泛应用的性能评估指标,在机器学习领域被频繁采用。它通过计算模型预测结果与实际标签一致的样本数量占总样本的比例来衡量模型的预测效果。该指标在处理类别平衡的数据时表现出较好的效果,在面对类别不平衡的数据集时可能会出现偏差。

4.2 精确率(Precision)、召回率(Recall)和 F1 值(F1-Score)

精确度与识别率是用于二分类问题的关键评价标准。其中,精确度衡量被判定为阳性实例中有真阳性的占比情况;而识别率则反映真实阳性样本中有被正确判定的数量占比。F1分数则是精确度与识别率的平衡平均值,在综合考量两者性能方面具有重要作用

4.3 ROC 曲线和 AUC

receiver operating characteristic(RO Chest)曲线是一种用于评估二元分类模型性能的重要指标。该曲线通过展示不同阈值下正样本识别率与误报率的关系来反映模型的表现。AUC(Area Under Curve)代表ROC曲线下所围区域的面积,这一指标能够有效衡量模型的整体表现能力。其数值越接近1,则表示模型性能越优。

4.4 回归指标

在回归问题中,广泛使用的评估标准通常涉及计算预测值与真实值之间的差异性度量。这些评估标准通常包括均方误差(MSE)、均方根误差(RMSE)以及平均绝对误差(MAE)等指标。这些评估标准旨在量化预测结果与实际观测值之间的差距,并通过不同的计算方式提供对模型性能的综合评价

5. 交叉验证

在监督学习过程中,常用交叉验证方法以精确评估模型的性能表现。交叉验证通过将数据划分为若干个子集,并在不同子集之间轮流作为测试集进行反复训练与测试的过程(即反复训练与测试),能够较为客观地得出模型性能的评价结果。

常见的交叉验证方法包括:

5.1 简单交叉验证(Simple Cross-Validation)

简单交叉验证将数据集划分为训练集和测试集,只进行一次训练和测试。

5.2 K 折交叉验证(K-Fold

Cross-Validation)

在K折交叉验证的过程中,数据会被划分为K个互不重叠的子集合;在每一次循环中选择一个子集合用于测试目的,并将其余的(K-1)个子集合用于构建模型;经过K次循环迭代后完成训练与验证过程。

5.3 分层 K 折交叉验证(Stratified K-Fold Cross-Validation)

分层 K 折交叉验证是对 K 折交叉验证的一种优化技术,在其基础上引入了更加合理的子集划分方式。该方法能够保证各个子集中的样本分布与整体数据集保持一致,并有效缓解了由于数据分布不均而导致的问题。

5.4 留一法交叉验证(Leave-One-Out Cross-Validation)

留一法交叉验证属于K折交叉验证的一种特殊情况。当K等于数据集的总样本数量时,在每一次迭代中仅选取一个样本作为测试用例,并将剩余的所有样本用于训练模型。

采用交叉验证方法能够更加全面地评估模型性能,并可有效规避单一划分训练集与测试集可能导致的偶然性问题

全部评论 (0)

还没有任何评论哟~