Advertisement

A Gentle Introduction to Machine Learning Terminology

阅读量:

作者:禅与计算机程序设计艺术

1.简介

探讨人工智能(AI)技术的人工智能(AI)研究人员正在研究如何使计算机系统具备学习能力,并运用所学知识对未来未知的数据进行预测与决策。作为本文的主要内容之一的基本概念、术语与关键词将在全文中得到阐述。预期通过本文能使读者更好地掌握人工智能相关的基本知识。

机器学习涉及许多不同的领域,包括:

  • 数据挖掘:从海量数据中提取有价值的信息,并对之进行分析处理以及预测;
  • 人工智能:基于模拟或数据的计算模型,通过学习完成任务并解决决策问题;
  • 图像识别:对图像中的特征信息进行提取,并实现分类识别;
  • 自然语言处理:理解非语言形式的语言信息,并实现有效的表达与理解;
  • 智能助理:基于个人需求以及日常生活经验提供智能化建议与服务;
  • 搜索引擎:通过用户的搜索习惯与行为模式对查询结果进行排序,并推荐相关内容。

机器学习的应用领域极为丰富。例如:

  • 邮件分类过滤
  • 垃圾邮件识别系统
  • 网页自动分配关键词标签
  • 提供个性化搜索反馈
  • 健康状况判断分析
  • 图像分类技术
  • AI翻译服务
  • 文本生成工具
  • 产品设计与开发等.

在后续的文章中,我将系统地逐步展开机器学习的基本概念,术语及其重要性

2.基本概念

2.1 监督学习

在机器学习领域中,监督学习被视为一种核心方法。它通过分析一组已知输入与对应输出的配对数据来训练模型,并使该模型能够根据新的输入预测相应的输出结果。每个训练样本由特征向量和目标变量两部分构成,在监督学习框架下,其主要应用领域包括分类任务与回归分析两大类。

分类(Classification)

分类即对输入数据进行适当标注;或者将这些数据划分为若干类别。如举例所示:图片被归类于不同类别的物体中。在分类问题里,目标变量通常都是离散型变量,并且代表了输入样本所属的不同类别。常见的分类算法包括朴素贝叶斯方法、K近邻算法、支持向量机模型以及决策树与神经网络等。

回归(Regression)

回归即利用输入数据预估输出变量的数值。如常见的应用场景包括房价预测与股票市场波动分析。在回歸問題中,目標變量通常表现为連續型數據形式。以下是一些典型的回歸算法:線性回歸、多項式回歸、局部位重加权線性回歸、隨機森林與支持向量回歸等。

2.2 非监督学习

非监督学习(Unsupervised learning)是机器学习中另一种重要方法,在该种学习方式下模型能够通过对数据进行聚类和降维等操作完成任务,并无需依赖标签信息。它的一个显著特点是无需任何输入-输出对的限制条件,在分析中仅依据数据自身的结构特征完成建模过程。非监督学习的主要研究方向主要包括聚类分析和降维技术两大类

聚类(Clustering)

聚类技术将具有相似特性的数据集合归为同一类别。解决聚类问题涉及识别数据中的潜在模式、识别异常数据点、实时监控系统运行状态、采用网格划分方法对数据进行组织管理以及将其应用于广告点击等实际场景。常用的聚类算法包括K均值聚类方法、层次结构聚类方法、谱聚方法、流形学习技术以及凝聚度评价指标。

降维(Dimensionality reduction)

维度降低是指采用特定降维方法将高维度数据映射到低维度空间中

2.3 半监督学习

半监督学习(Semi-supervised learning)是指一定数量的带标签数据与较少无标签数据组成的集合。在有限数量的带标签数据下,模型只能利用这些数据来进行学习。然而这些数据仍然能够用于预测并且具有可靠性和准确性保证模型的有效性。半监督学习的应用场景涵盖垃圾邮件识别文本分类图像识别以及医疗数据分析等领域

2.4 强化学习

强化学习(Reinforcement learning)是通过与环境的互动来实现持续地获得奖励和惩罚从而实现最佳策略的学习过程。该方法在机器人控制技术自动驾驶技术领域资源优化配置问题解决方面具有广泛的应用潜力,并且在精准的商品推荐系统以及复杂的金融投资交易活动中也展现了强大的适应能力。

2.5 集成学习

集成学习(Ensemble learning)是将多个弱学习器组合起来,并通过投票或平均化的方式达到超越单个模型性能水平的效果。集成学习广泛应用于分类、回归、聚类及降维等问题领域,并涵盖Bagging、Boosting、Stacking等技术及基于委员会的方法。

2.6 迁移学习

迁移学习即指利用源领域已训练好的模型直接应用于目标领域,在无需重新进行训练的情况下即可实现高效应用。该方法可显著降低训练时长并提升整体效率水平的同时也能带来预期的作用效果。在迁移学习的具体实施过程中常用的方法包括微调技术、渐进式增长策略、基于特征共享机制的方法以及通过头初始化优化的技术,并辅以域适应技术来提升性能。

2.7 监督学习问题类型

监督学习问题类型包括:

  • 回归模型/分析/估计/预估/计算/推导 (regression model) 是指用于估计连续型变量值的方法。
    • 二类分组任务 (binary classification task) 是指根据对象属性将其划分为两类的情况。
    • 多类判别分析/multiclass discrimination 是指对物体按其属性进行多类别的分组过程。
    • 标注任务 (annotation task) 是指为输入数据中的各个单元赋予特定标识的过程。
    • 序列推断/sequence inference 是指根据已有信息推测后续数据点的方法。

2.8 非监督学习问题类型

非监督学习问题类型包括:

  • 密度估计任务(density estimation task):通过分析输入数据序列来推断概率密度分布特性。
    • 分层聚类任务(hierarchical clustering task):基于数据间的相似度将具有相似特性的数据集合分类至独立的群体中。
    • 协同过滤系统(collaborative filtering system):构建基于用户偏好的商品推荐机制。
    • 主题模型任务(topic modeling task):利用大规模文本信息提取关键主题及相关词汇,并深入揭示其潜在意义。
    • 关联规则挖掘任务(association rule mining task):探索数据记录表中对象间潜在的关联模式。

3.术语和关键词

3.1 模型和代价函数

数学模型(Mathematical model)是一种用于表示输入与输出之间映射关系的函数形式。换言之,在技术领域中,“数学模型”指的是通过明确定义输入变量与输出结果间的关系所建立的一套理论体系或计算框架。具体而言,在很多应用场景中都涉及构建这样的映射关系:例如,在研究线性关系时,默认情况下我们通常会采用方程y = ax + b的形式来描述这种线性映射现象。其中ab分别代表该特定线性变换的基本参数指标;具体而言,在这种情况下ab分别代表该特定线性变换的基本参数指标;具体而言,在这种情况下

在机器学习中,目标函数(Objective Function)被定义为评估模型性能的标准。当预测结果与实际结果之间的差异减小时,目标函数的值也随之降低。大多数机器学习算法都会通过最小化目标函数来确定最佳参数设置,并从而实现对训练数据的最大似然估计或最大后验概率估计。具体而言,目标函数通常由两部分组成:损失项(Loss Term),用于衡量预测误差;以及正则项(Regularization Term),用于防止过拟合。

模型中变量的名称称为参数(Parameters),它们影响着模型的行为。这些数值通常通过优化算法进行调整,以使这些数值能够使模型在处理输入数据时表现出最佳效果。这些数值由训练过程决定,并且在每次迭代中都会根据反馈逐步更新。

偏置(Bias)是指预测结果与真实值之间的差异程度。这种偏差相当于模型的一个基准设定值,在训练效果不佳的情况下可作为辅助信息使用。研究发现偏置的存在有助于降低过拟合风险。

3.2 监督学习算法

所谓监督学习算法亦称作有监督学习方法,则是指其主要处理的训练样本既包含输入信息(以特征向量形式呈现),也包含对应的目标信息。其也被视为一种基于教学样例的学习方式。常见的监督学习算法包括:

  • 线性回归(Linear Regression):基于输入特征x利用数学模型y=wx+b来预测其结果。
    • 逻辑回归(Logistic Regression):通过Sigmoid函数将线性回归结果转换为概率形式并采用交叉熵损失函数进行优化。
    • 支持向量机(Support Vector Machines):通过构造间隔边界确定最大间隔超平面以实现分类目标。
    • 决策树(Decision Tree):根据输入空间划分不同区域以实现分类目标。
    • K近邻算法(KNN algorithm):找出距离当前实例最近的k个训练样本并通过投票机制对新输入进行预测。
    • 朴素贝叶斯(Naive Bayes):假设数据服从多元高斯分布并基于样本特征出现频率进行分类判断。
    • 神经网络(Neural Network):利用多层神经元之间的连接关系进行非线性拟合以适应复杂数据模式。

3.3 非监督学习算法

无监督学习算法又被称作非监督学习算法,其本质特征在于训练数据只有输入数据而没有相应的输出数据。通常采用聚类分析和降维技术等方式来实现。常见的非监督学习算法包括:

  • 聚类算法(Clustering Algorithm):根据数据间的相似度进行分类,在同一类别内部的数据点具有较高的相似度,在不同类别之间则表现出显著差异性。常见的具体实现方法包括K-means、DBSCAN、EM、GMM以及谱聚类等。
    • 降维算法(Dimensionality Reduction Algorithm):通过特定降维技术将高维数据映射至低维空间,在这一过程中能够有效保留数据的关键特征信息,并便于直观呈现其内在分布规律。具体方法主要包括主成分分析法(PCA)、核主成分分析法(Kernel PCA)、局部线性嵌入法(LLE)、Isomap、多维尺度法(MDS)以及t-分布投射到低维空间成形法(t-SNE)等。

3.4 评价指标

为了模型性能的评估主要关注于其泛化能力的表现,在实际应用中我们通常会采用多个不同的评估标准来全面考量模型的质量。这些评价指标涵盖了从数据拟合程度到分类准确性等多个维度的关键指标。通常情况下,广泛采用的评估标准包括以下几点:准确率、精确率、召回率以及F1分数等。

  • 准确性(accuracy):正确分类实例的数量占总实例的比例。
  • 精确度(precision):仅识别出真阳性的比例即为精确度;即为真阳性占所有被识别为阳性的实例的比例。
  • 召回率(recall):所有真实阳性的数量占真实阳性的总数的比例即为此处的召回率。
  • F1分数(F1 score):综合了精确度与召回率两项指标的表现;其计算结果是这两项指标的调和平均数。
  • 受试者工作特征曲线(Receiver Operating Characteristic curve, ROC curve):展示了真实正样本比率(TPR;True Positive Rate)与假正样本比率(FPR;False Positive Rate)之间的关系。
  • 曲线下面积(Area Under the Curve, AUC)值越大,则分类器的表现越好;即区分正常与异常的能力越强。

3.5 超参数

在模型训练过程中设定的参数称为超参数,在机器学习中这些预先设定的配置项对算法性能有着重要影响。而它并不是模型本身的参数,在实际应用中需要根据具体场景进行调整以获得最佳效果。常见的超参数包括:学习率、正则化系数等

  • 学习速率(learning rate):在训练阶段中, 模型参数每次更新所采用的步长即为学习速率.
  • 批量容量(batch size): 在单次输入中被投入至模型的数据样本数.
  • 迭代轮次(iteration): 整个训练过程中的完整轮数.

3.6 交叉验证

在机器学习领域中运用交叉验证的方法时(Cross validation),通常会将数据集划分为若干互斥的子集,在这些子集中交替使用一部分作为训练数据、另一部分作为测试数据,并基于测试结果来评估模型的质量水平。这种技术不仅有助于提高模型的一般化能力(generalization capability),还能有效地防止过拟合现象的发生。

3.7 正则化

正则化技术旨在限制模型的复杂程度。该方法通过施加约束来防止模型发生过度拟合的现象。常见的正则化手段主要包括L1和L2范数等。

  • L1正则化:该拉普拉斯矩阵施加约束于模型参数并使其趋向于零。
  • L2正则化:该Tikhonov矩阵施加约束于模型参数并使其趋于非零值。

3.8 模型集成

模型集成(ModelEnsemble)即指将多个弱分类器组装在一起形成一个集成模型以达到提升整体性能的目的常见的模型集成方法包括多种不同的组合策略

  • Bagging:通过集成多棵决策树来减少模型方差。
  • Boosting:在每一阶段的学习过程中以当前模型的错误率为学习率进行训练,并通常能够生成比单独使用单一模型更为出色的结果。
  • Stacking:利用基模型对训练数据集进行预测,并随后通过上一层学习器将这些预测结果整合生成新的输出。

4.核心算法原理

4.1 线性回归

线性回归基于一条直线形式来匹配输入与输出之间的关联。该模型即由一个输入量x和一个输出量y组成,在假设它们之间存在这样的线性关系:y = w·x + b。该方法基于提供的训练样本数据集逐步优化参数w与b……

线性回归的损失函数通常使用平方损失函数,即:L(y_hat, y)=∑[(y_hat-y)^2]。

4.2 逻辑回归

该分类算法即为逻辑回归方法。它首先执行输入变量的线性转换,并随后应用sigmoid函数以实现非线性转换。这种处理方式从而将输入变量的取值范围转换为二元输出结果。其形式可表示为:\hat{y} = \sigma(Wx + b),其中σ代表sigmoid函数。通过训练数据集优化参数W和b以提升预测效果。

逻辑回归的损失函数通常使用交叉熵损失函数,即:L=-[y*log(y_hat)+(1-y)*log(1-y_hat)]。

4.3 支持向量机

支持向量机(SVM)是一种二类分类器,在数据集上通过确定最优分离超平面来进行两类数据点的划分。其数学形式为:对于所有i=1到N的max{min(1,-yi(W·X + b))},其中W表示权重向量,X代表输入样本,yi为对应样本的真实类别标签值。采用软间隔最大化策略以优化模型参数以提高泛化能力。

SVM的学习过程通常会采用最大间隔法来构建其损失函数模型。具体来说,在分类器的设计中我们寻求的是能够充分拉开不同类别之间的距离从而实现分类效果最优的目标函数该目标函数的具体形式为L=sum_{i≠y}(max(0, 1−α_i)) − max{0,sum_{i=y}(−1)+sum_{i≠y}max(0, 1−α_i)}}其中各个变量分别代表不同的分类情况与误差程度

4.4 决策树

决策树(Decision Tree)是一种基于树状结构的分类模型。它通过递归的方式对输入数据进行划分,并在满足终止条件时完成构建过程。最终依据最后一次划分结果来进行分类。其形式为:如果x[d]<v则t否则f其中x表示输入数据d代表属性索引v为属性阈值该方法采用递归的方法构建决策树模型

决策树的损失函数通常使用极大似然估计,即:L=prod_{i=1}^N p(Y|xi)。

4.5 K近邻算法

K近邻算法(K-Nearest Neighbors, KNN)是一种基于非参数学习模型的方法。该方法通过计算测试实例与其训练集中的其他实例之间的相似度或距离关系,在给定的距离范围内确定其最邻近的数据点,并根据这些邻近数据点所属的目标类别进行投票决策以确定测试实例的分类结果。在数学上,KNN模型可表示为:\hat{y} = \arg\max_{k} \sum_{j \in N^k} I(x_j = y_j), 其中N^k表示在训练集中与测试实例距离最短的前k个样本,y_j为第j个训练样本的目标类别,I()函数用于判断两者的等同性

KNN的损失函数通常使用曼哈顿距离,即:L=||xn-yn||。

4.6 朴素贝叶斯

可以说成一种基础的概率分类模型。
它建立在贝叶斯定理的基础上,
假设各个特征之间相互独立,
因此,在这种假设下,
条件概率可被表示为各特征联合概率的乘积,
即:
P(c|x) = (p(x₁,…,x_k|c) * p(c)) / p(x₁,…,x_k)
其中x₁,…,x_k代表各个特征变量,
而c代表类别标签。
其形式化定义为:
\hat{y} = \argmax_{c} P(c|x)
其中\hat{y}代表预测结果,
而c对应于输入数据所属的具体类别。

朴素贝叶斯的损失函数通常使用极大似然估计,即:L=prod_{i=1}^N P(yi|xi)。

4.7 神经网络

人工神经网络(Artificial Neural Networks, ANNs)作为模拟生物神经系统信息处理机制的技术体系而发展起来的一种学习系统,在模式识别、数据分类及预测分析等方面展现出强大的能力特征。其能够接收外部输入信息,并通过一系列非线性转换过程逐步生成相应的输出结果。对于ANN模型而言,在数学上可表示为y_hat=activation(Wx+b),其中activation函数负责引入非线性特性,Wx代表输入层与隐层之间的连接权重系数,b则对应于各节点的偏置值。利用反向传播算法对模型参数进行系统优化处理以提高预测精度和分类效率

ANN的损失函数通常使用均方误差损失函数,即:L=(y_hat-y)^2/2m。

全部评论 (0)

还没有任何评论哟~