AI人工智能(2):机器学习
1 简介
在人工智能领域中将机器学习定义为一个核心分支。这一技术使计算机系统能够在数据与算法的基础上自适应地优化其功能表现。在机器学习中,则指导计算机能够基于经验数据进行决策与预测任务。如今,在多个技术领域中如推荐系统图像识别语音识别金融分析等领域均可见这一技术的身影。例如借助于现代计算技术我们得以训练出能够识别交通标志的人工智能汽车从而实现自动驾驶功能。
1.1 机器学习与传统编程的区别
在传统的编程方法中,在传统编程方法中, 传统编程方法要求程序员为每个任务编写特定的程序指令来指导计算机完成该任务;而机器学习则通过数据训练使计算机能够自主识别和总结模式.
- 传统编程: 程序设计人员制定精确的程序指令和工作流程,由机器按照规定完成所有任务。
- 机器学习: 机器通过收集和分析大量数据进行训练,在经过优化后能够识别出特定的数据模式,并利用这些模式实现预测功能以及辅助决策。
举个简单的例子,假设我们要训练一个模型来识别猫和狗的图片。

在传统编程领域中,开发人员必须手动指定哪些特征以辨别猫与狗的相似之处(例如耳朵形状,鼻子形态等类似其他部位),然而在机器学习框架下,仅需提供海量标注图像数据集,计算机将通过深度学习算法自动生成分类模型
1.2 常见机器学习任务
- 回归任务:通过建立数学模型来估计连续变量的值,并在房价预测等场景中得到广泛应用。
- 分类任务:涉及识别特定模式并划分样本到预定义类别组中,在垃圾邮件检测等应用中表现出色。
- 聚类任务:目标是通过无监督学习方法将相似的数据点分组成群组,在客户细分分析等领域提供有价值的信息支持。
- 降维任务:旨在减少数据的空间维度数量的同时保留关键信息特征,并在主成分分析(PCA)等方法中被广泛应用以提高数据分析效率和模型性能。
1.3 机器学习常见算法
监督学习:
- 线性回归(Linear Regression):简单线性回归模型
- 逻辑回归(Logistic Regression):逻辑模型
- 支持向量机(SVM):支持向量机(SVM)
- K-近邻算法(KNN):k-近邻分类法
- 决策树(Decision Tree):决策树算法
- 随机森林(Random Forest):随机森林算法
无监督学习:
- K-均值聚类(K-Means Clustering)
- 主成分分析(PCA)
深度学习:
- 神经网络(Neural Networks)
- 卷积神经网络(CNN)
- 循环神经网络(RNN)
1.4 机器学习工作流程
机器学习是基于计算机在海量数据中识别出规律与关联性,并据此进行推断与决策的技术手段
- 首先, 收集相关数据并对之进行预处理, 然后从可用算法库中选择适当的算法来进行训练.
- 模型通过持续优化参数来降低预测误差, 直至能够最小化计算出的损失函数值, 这使得其能够实现对新输入的数据进行准确的预测.
- 最终, 该模型被部署到实际应用场景中, 实时生成预测结果或进行决策判断, 并在接收新的训练数据后持续改进.
机器学习是一种逐步优化的过程,在实际应用中通常需要反复调整模型参数以及选择合适的特征以实现预期效果;如图所示是机器学习的整体工作流程框架:该流程主要包括数据输入、模型训练与评估三个主要环节。

- Labeled Data(标记数据): 图中蓝色区域展示了标注样本集合X=\{x_1,x_2,...,x_N\}, 其中包含了不同类型的几何形状S=\{s_1,s_2,...,s_M\}.
- Model Training(模型训练): 被分析其特征\textbf{x}_i, 并被训练出一套模式识别规则f(\textbf{x})=\hat{y}.
- Test Data(测试数据): 测试样本仅包含一个正方形和一个三角形.
- Prediction(预测): 模型将根据训练获得的模式识别规则f(\textbf{x})=\hat{y}来判断待测形状s_j属于哪一类类别.
- Evaluation(评估): 通过与真实标签对比L(y_j,\hat{y}_j)来验证模型的有效性.
1.5 机器学习的类型
机器学习主要分为以下三种类型:
1. 监督学习(Supervised Learning)
- 定义: 监督学习是基于具有标签的数据进行训练的过程,在分析输入数据与其对应标签的关系后实现预测或分类功能。
- 应用: 该方法主要应用于分类任务(例如垃圾邮件识别)以及回归问题(例如房价预测),在这些场景下能够有效建模。
- 例子: 常见的应用包括线性回归模型、决策树模型以及支持向量机模型(SVM),这些方法各有特点并广泛应用于实际问题中。
2. 无监督学习(Unsupervised Learning)
- 定义: 无监督学习基于无标签的数据集,模型旨在从数据中识别隐藏的结构或模式。
- 应用: 聚类(如客户分群)例如客户群体分类;降维(如数据可视化)例如通过数据可视化技术进行分析。
- 例子: K-means聚类算法;主成分分析法(PCA)。
3. 强化学习(Reinforcement Learning)
- 定义: 强化学习算法通过与环境交互来优化智能体的行为策略,在探索过程中逐步提升其长期收益能力。每次行动后系统会根据结果给予奖励或惩罚信号,并据此调整行为策略。
- 应用: 在游戏AI领域如AlphaGo等应用中,在自动驾驶技术方面,在机器人控制领域。
- 例子: 基于Q-表格的学习方法(Q-learning)及其扩展形式如深度Q网络(DQN)。

2 机器学习基本概念
在学习机器学习的过程中,请掌握其关键理论基础。这些核心理论指导我们了解数据输入机制、模型运作原理以及性能评估标准。随后我们将深入探讨机器学习领域的若干基本原理:
- 训练集、测试集和验证集:促进对模型进行训练、评估以及优化。
- 特征与标签:特征作为输入信息被提取出来,并被用来推断出标签。
- 模型与算法:基于特定算法构建起来的数学框架能够帮助提取数据中的潜在规律。
- 监督学习、无监督学习和强化学习:主要应用于不同场景的学习方法分别对应于分类问题、聚类任务以及动态决策过程等。
- 过拟合与欠拟合:这两种常见现象直接影响其在未知数据上的性能表现。
- 训练误差与测试误差:度量模型是否能够良好地适应现有数据分布的同时也能够准确地进行预测。
- 评估指标:核心评价依据即根据具体任务需求选择合适的量化标准来衡量模型性能。
这些核心概念用于理解与应用机器学习的基础知识。掌握或深入理解这些概念对于进一步学习具有重要意义。
2.1 训练集、测试集和验证集
训练集(Training Set): 训练集作为用于训练机器学习模型的数据样本集合,在其中包含了输入特征与对应的目标变量(在监督学习场景中)。这些数据被用来指导机器学习模型分析输入特征与其目标之间的关系,并通过优化参数来提升预测准确性。
测试数据集(Test Dataset):该集合用于评估经过训练后的机器学习模型性能。其中的数据样本并未参与到模型的训练过程中,在该集合上进行预测操作后与真实标签进行对比分析,从而帮助我们了解该机器学习模型在面对新数据时的表现能力。
验证集(Validation Set): 验证集用作在训练阶段调整模型的超参数(如学习率、正则化参数等)。常被用来优化模型。帮助选择最优的一组参数组合, 以便避免过拟合。验证集的作用是对model的行为行监控, 并行必要性调试
2.2 特征(Features)和标签(Labels)
Feature(特征):Feature是输入数据中的不同属性或指标。系统或模型通过分析这些Feature来进行预测或分类任务。例如,在房价预测问题中,可能的Feature包括房屋面积、地理位置以及卧室数量等因素。
Labels: Labels represent the target variables in machine learning tasks. In supervised learning tasks, labels are typically known values. For example, in price prediction, the label is the actual price of the house.
2.3 模型(Model)与算法(Algorithm)
模型(Model): 该模型通过学习数据中的模式构建了数学结构。该结构接收输入特征,并经过一系列计算与转化来生成预测结果。常见的几种类型包括线性回归、决策树以及神经网络等。
算法(Algorithm):Algorithm 定义为实现机器学习任务的基本步骤或规则集合,在此过程中系统通过训练数据逐步优化其性能指标以达到目标输出效果。典型的算法包括梯度下降法、随机森林模型以及K近邻分类器等。通过优化参数设置,这些方法能够减小预测值与真实值之间的差异,并提升整体模型效能水平。
2.4 监督学习、无监督学习和强化学习
监督学习(Supervised Learning): 在监督学习框架下, 训练数据集包含了预先确定的目标标签. 模型通过分析输入特征与其对应的目标之间的关联规律, 并以此基础实现对新样本的有效识别. 监督学习的核心目标是优化准确性, 从而提升模型在未知数据上的表现能力. 具体而言, 监督学习涵盖了线性回归;逻辑回归;支持向量机(SVM);决策树等基本算法.
无监督学习(Unsupervised Learning): 该方法基于无标签的数据进行学习,在不依赖标注信息的情况下提取数据特征及内在规律性关系。其主要目标是揭示数据内部的潜在结构,并广泛应用于聚类分析、降维技术等领域。例如K-means聚类算法以及主成分分析方法(PCA)。
强化学习(Reinforcement Learning):强化学习是一种让智能体通过与环境互动并根据奖励或惩罚来优化行为模式的学习方法。其核心目标是帮助智能体探索并掌握能够带来最大长期收益的行为序列或策略组合。如AlphaGo系统、自动驾驶技术及游戏AI等领域的应用广泛展示了该方法的有效性
2.5 过拟合与欠拟合
过拟合(Overfitting): 过拟合是指算法在训练数据集上表现出色,在测试数据集上的预测能力却显著下降。这种情况往往出现在模型过于复杂或参数设置不当的情况下。导致模型过度地适应了训练数据中的噪音或偶然性,使得模型无法有效处理新出现的数据。可以通过简化算法结构、收集更多高质量的数据或者引入正则化技术等手段来有效缓解这一问题。
欠拟合(Underfitting): 欠拟合指的是模型在训练集与测试集上均表现出较低的性能水平,在多数情况下是因为模型架构过于简单不足以捕获数据中的复杂关系模式。欠拟合的模型不具备从数据中提取有用规律的能力。通过提升模型复杂度或采用更为先进的算法能够有效改善这一问题。
2.6 训练与测试误差
Training Error(训练误差): Training error represents the performance of a model on its training dataset, indicating how well the model has learned from the provided data. If the training error is notably large, it may suggest that the model's complexity is insufficient, leading to underfitting. Conversely, if the training error is very small, it could imply that the model is overly complex, potentially causing overfitting.
测试误差(Test Error):测试误差是模型在未见过的数据集上的评估指标,在一定程度上反映了其泛化性能。该指标能够揭示模型对新数据的学习能力和稳定性。为了确保评估的有效性,在实际应用中应当使测试阶段的表现与训练阶段保持一致的一致性与平衡性。如果观察到测试误差显著高于训练阶段的水平,则可能暗示存在过拟合现象
2.7 评估指标
因任务而异的机器学习模型的评估指标各不相同。以下是常用的几个评估指标:
准确率(Accuracy): 分类任务中,正确分类的样本占总样本的比例。
精确率(Precision)和召回率(Recall): 主要用于解决数据分布不均衡的问题,在机器学习领域有重要应用。精确率指标评估了模型将哪些样本预测为正类时的实际准确性水平;召回率则衡量了在所有真实存在的正类样本中模型成功识别出的正类数量。
F1 分数: 精确率与召回率的调和平均数,用于综合考虑模型的表现。
均方误差(MSE): 回归任务中,预测值与真实值之间差异的平方的平均值。
