机器学习期末复习

阅读量：

绪论AND模型评估与选择

数据集

数据集合（Data Set）：一组数据记录的集合，类似于数据库中的一个表（基于第一范式）。
每条记录描述了一个事件或对象，并被称为一个‘样本’（sample）或其他术语如‘实例’（instance）。
反映事件或对象在某一特定方面的特征或属性的事项称为‘属性’（attribute）或其他术语如‘特征’（feature）。
属性上的取值称为‘属性值’（attribute value）。
属性所构成的空间称为‘属性空间’（attribute space）、‘样本空间’（sample space）或其他术语如‘输入空间域’（input space domain）。
其中每个点都对应着一组坐标数值。

分类，回归，聚类

分类，回归问题中的损失函数的选择

在分类任务中，我们采用交叉熵损失函数来衡量预测结果与真实标签之间的差异。对于回归问题中通常采用平均绝对误差（MAE）作为衡量预测值与实际值之间差异的标准损失函数。此外，在回归任务中还常使用均方误差（MSE）损失来计算预测值与真实值之间的平方差的期望值。为了平衡L1和L2的优点，在回归任务中常用平滑的L1损失（Smooth L1 Loss），这种方法通过在接近零的梯度处平滑过渡来减少优化过程中的不稳定。

分类：当我们需要预测的结果属于明确的不同类别时，则将此类学习任务归入分类领域（classification）。例如，在图像识别中，如果只涉及两类别，则将其归为 二分类问题 （binary classification），并将其中一类标记为正类（positive class），另一类则被称为负类（negative class）。当存在超过两类别时，则被称为 多分类问题 （multi-class classification problem）。

回归：若用于预测的目标变量为连续型数据，则此类学习任务被称为"回归"（regression）。例如，在西瓜成熟度取值分别为0.95和0.37的情况下，则属于回归问题（regression）。如销售量预测这类应用则更为常见。

聚类分析：将训练集中的数据划分为多个簇（clusters），每个簇即为一个"群"（group）。例如，在西瓜分类中进行"聚类分析"时，则这些自然形成的簇往往对应一些潜在的概念分类，如区分"浅色瓜"与"深色瓜"等；此外还可以进一步区分来自本地或外地的瓜类

线性回归VS逻辑回归

(1) 逻辑回归与线性回归均属于广义线性模型家族。(2) 传统线性模型采用最小二乘法作为损失函数，在此框架下逻辑回归采用最大似然估计方法。(3) 在线上性范围内预测数据点值时展现出良好的适应性和稳定性，在类别划分上则受限于[0,1]区间。相比之下，在此区间内约束输出值以实现平滑的概率分布估计的逻辑回归方法更适合解决此类问题。(4) 在在线性和分类任务中分别擅长不同的应用场景：前者主要用于连续变量预测问题如房价或产量估计；后者则适用于类别标签识别如疾病诊断或图像分类等场景。

特征提取与特征选择

在特征提取过程中，我们将原始图像数据转化为一组具有明显物理特性的参数集合（如Gabor滤波器响应值、角点检测结果及不变量计算值等），这些参数不仅能够反映图像的几何结构信息，还能够通过纹理分析方法（如LBP和HOG）进一步提取出更具判别的纹理特征。

特征选择：从特征集合中挑选一组最具统计意义的特征，达到降维。

两者的共同作用：

1 减少数据存储和输入数据带宽；

2 减少冗余；

3 低纬上分类性往往会提高；

4 能发现更有意义的潜在的变量，帮助对数据产生更深入的了解

介绍主成分分析法（PCA）和线性判别分析法（LDA）的基本原理概述。

主成分分析（Principal Component Analysis, PCA）是一种统计方法。它通过正交变换将一组可能存在相关性的变量转变为一组线性不相关的变量。这些变换后的变量即为主成分。在众多领域的研究与实践中，我们经常需要对反映事物的多个变量进行大量观测并积累丰富数据以便进行深入分析以寻找规律。然而，在多数情况下这些多变量之间可能存在相关关系从而增加了问题分析的复杂性和难度同时也会给研究带来诸多不便。如果仅对单个指标进行单独分析将会导致研究结果缺乏系统性并可能遗漏重要信息进而影响结论的准确性

因此需要找到一个合适的方法，在缩减需要分析的指标数量的同时最大限度地降低原有指标所携带的信息损失，并最终实现对所收集数据的全面分析目标。鉴于各变量之间存在一定相关性关系，则可能通过少量综合指标来分别整合各变量中的各类信息特征。主成分分析与因子分析等技术手段则属于此类降维方法的主要代表。

LDA（这里指的是Fisher线性判别式）则将线性分类视为一种数据降维的应用方式。对于二分类问题而言，在输入D维向量x的基础上将其通过线性变换投影至一维空间：

y = \mathbf{w}^T\mathbf{x} + b

y=wTx

偏差和方差

模型选择方法

留出法

K 折交叉验证

留一法

分层 K 折交叉验证法

自助法

机器学习（常用算法）

Supervised Learning
Regression Analysis: Includes techniques such as Linear Regression, Logit Analysis, and Lasso Regularization for modeling relationships between variables.
Classification Methods: Covers Decision Tree Algorithm, Neural Network Model, and Support Vector Machine Classification for categorizing data into predefined classes. Bayesian Classification Method offers probabilistic approaches for classification tasks. Additionally, Ensemble Learning Techniques like Boosting, Bagging, and Random Forest are employed to enhance model accuracy and robustness by aggregating multiple learning models. Deep Learning Techniques focus on complex neural architectures to address intricate patterns in data across diverse applications.

无监督学习

以下是对输入文本的改写

泛化

学习后的模型能够适应新样本的能力被称为"概括性"（generalization）能力. 具备强大概括性的模型能够普遍适用整个数据范围

“没有免费的午餐”定理

对于某一类别的学习方法A，在解决某些具体问题时优于另一学习方法B，则必然也存在另一组特定的问题，在该组问题上方法B的表现会优于方法A。这一结论具有普遍性特征，在任何情况下均成立；即便选取前一幻灯片中的某一具体方法作为基准（即A），而将另一种低效的方法（如"随机猜测"）设定为对比对象（即B）。所有方法在整体上的平均性能是一致的；而不同方法之间的性能评价结果则取决于具体解决的问题类型。

归纳偏好

学习过程中对某种类型假设的偏好称作归纳偏好

“奥卡姆剃刀”

在科学领域中 simplest 的基础原则称为奥卡姆剃刀。也就是说，在多个假设与观测结果一致的情况下，默认选择最简单的那个。

训练数据、测试数据与验证数据（容易混淆）

这三个样本集的作用分别是：

训练集(train set)，用于训练有监督模型，拟合模型，调整参数，选择入模变量，以及对算法做出其他抉择；
测试集(test set)，用于评估训练出的模型效果，但不会改变模型的参数及效果，一般验证模型是否过拟合或者欠拟合，决定是否重新训练模型或者选择其他的算法；
验证集(validation set)，因为训练集和测试集均源自同一分布中，随着时间的流逝，近期样本的分布与训练模型的样本分布会有变化，需要校验训练好的模型在近期样本(验证集)是否有同样的效果，即模型的稳定性、鲁棒性、泛化误差。
验证集的作用是调整超参数
训练集：用于训练模型，找出最佳的。
验证集：用以确定模型超参数，选出最优模型。
测试集：仅用于对训练好的最优函数进行性能评估。
训练集、验证集和测试集分工明确，各施其职，切不可互相取而代之。特别是不能混淆验证集和测试集，下面用一个表整理下两者的区别：
参考
区别验证集测试集
作用确定模型超参数仅用于对训练好的最优函数进行性能评估
是否用于训练否（在选出最优模型后，需要将验证集也放入训练集一起训练最优函数）否
使用次数多次使用，每次更新超参数后都要用验证集对模型性能进行验证仅在最后使用一次

大多数机器学习算法都包含超参数这些无法由学习算法自动确定（例如正则化系数或控制模型复杂度的参数）。为了优化超参数设置通常会使用验证集将训练数据划分为两部分：一部分用于训练模型另一部分作为验证数据用于调整超参数以避免过拟合的问题。然而验证数据量通常需要足够大否则可能导致模型过度依赖有限规模的数据从而影响评估结果的实际可靠性。在这种情况下验证数据可能低估泛化能力这就需要借助独立的测试集合来进行更为准确地评估模型的表现以确保对未知数据的整体预测能力做出合理的估计。需要注意的是测试集合中的样本必须与训练数据完全分离否则会导致对泛化能力评估产生偏差这样的偏差可能会使结果低估实际性能差异因此在不需要对预测能力进行严格评估的情况下可能无需准备独立的测试集合即可满足需求。此外验证集合不仅用于选择最优超参数还参与到模型构建过程中因此必须使用完全独立的数据来进行最终性能评估这样才能保证所得到的结果具有较高的可信度和代表性

经验误差与过拟合

被用来计算的，在训练集上产生的误差被称为"训练错误"（training error）和"经验错误"（empirical error）。同样的，在测试集上产生的错误则被称为"泛化错误"。当被学习器过分地从这些样例中提取出特定特征时（即被学习得过于完美），这些特征可能会变得过于特殊而不具备普遍性。这会导致模型在面对新的未见过的数据时表现不佳。这种情况在机器学习领域被称为"过拟合"（overfitting）。与此相对的是另一种情况——'欠拟合'（underfitting），它指的是模型未能充分掌握数据中的通用特性。

性能度量

回归任务 最常用的性能度量是“均方误差”(mean squared error)

混淆矩阵 （Confusion Matrix）结构如图(两类)所示：

• TP：真实正类。样本的实际类别为正类别，并且该模型能够正确识别为正类别。
• FN：真实负例。样本的实际类别为正类别但被错误分类为负类别。
• FP：误报或伪阳性结果。实际类别为负例但被错误判断为正类别。
• TN：真实阴性结果或真实的 negatives. 样本的实际类别和分类结果均为阴性类别。
• 准确率（Accuracy [ˈækjərəsi]）是分类领域中最常用的性能指标之一。
• 它衡量的是模型预测的准确性程度——即准确率为正确预测的数量除以总样本数量。
• 在一般情况下，在准确率较高的情况下（通常指较高的正确预测比例），我们可以认为该分类器的表现较好。
准确率计算公式：

\text{Accuracy} = \frac{TP + TN}{TP + FN + FP + TN}

• Precision [prɪˈsɪʒn]（精确率或精确度）
• 也可称为准确性，在被分类为阳性的样本中真实阳性所占的比例。
• 当查准率越高时，则说明模型的效果越好。
• Precision = TP/(TP+FP)

矛盾指标：
查准率[正确率或者准确率]和查全率[召回率]
是一对矛盾的指标。
• 一般来说，查准率高时，查全率往往偏低；而
查全率高时，查准率往往偏低。
• Recall（召回率）
• 又称为查全率，召回率表现出在实际正样本中，分
类器能预测出多少。表示的是模型正确识别出为正
类的样本的数量占总的正类样本数量的比值。
• Recall（召回率） = Sensitivity（敏感指标，
True Positive Rate，TPR）= 查全率
• 一般情况下，Recall越高，说明有更多的正类样本
被模型预测正确，模型的效果越好。
• Recall = TP/(TP+FN)

• 特异度（Specificity）
• 特异度指标用于衡量模型将实际负类样本正确识别的比例。
• 其计算公式为 Specificity = 1 - FPR，并且FPR等于真阴性率 TN/(TN+FP)。

负正类率 （与 Sensitivity互补）

• Sensitivity（灵敏度）

ROC曲线：
ROC可以无视样本不平衡问题

绘制ROC曲线

绘制PR曲线

X轴表示召回率（Recall），其计算公式为Recall = TP/(TP+FN)；Y轴表示精确率（Precision），计算公式为Precision = TP/(TP+FP)；整个绘图过程遵循ROC曲线绘制的标准方法

机器学习和深度学习解决实际项目一般流程

深入分析具体应用场景并将其转化为适合机器学习算法处理的数学模型；
收集高质量相关数据；
进行特征工程以提升模型性能；
训练模型后进行性能评估和参数优化；
验证模型效果并分析预测误差来源；
集成多种算法优势以提升整体性能；
部署至生产环境并实时监控运行状态。

超参数搜索有三种常见的策略

– 自动调参：自行确定参数设置。
– 网格调参：面对数据量较小时，网格调参此方案具有较高的适用性。
– 随机调参：这种方法常被建议采用。

线性模型

线性回归最小二乘公式

只要记住W的公式即可，b的公式推导求平均

多分类

多分类（ Multi-class Classification ）问题是指当分类类别数 𝐷 大于 2 时的情况．多分类问题通常需要多个线性判别函数来进行分类设计．针对一个多分类问题（假设其类别集合为 {1,2,⋯,𝐷}），常用的设计方法有以下三种：
（1）"One-vs-All"方法：将多分类问题转化为 𝐷 个独立的一对一类二元分类任务．这种方法总共会产生 𝐷 个判别函数，在第 𝑑 个判别函数中（其中 1 ≤ 𝑑 ≤ 𝐷），通过区分类别 𝑑 的样本与其他所有不属于该类别的样本来进行决策．
（2）"One-vs-One"方法：将一个多分类问题分解为 𝐷(𝐷 − 1)/2 个独立的一对一类二元分类任务．这种方法总共会产生 𝐷(𝐷 −1)/2 个判别函数，在第 (𝑖,𝑗) 对类别的判断中（其中 1 ≤ 𝑖 < 𝑗 ≤ 𝐷），通过区分类别 𝑖 和类别 𝑗 的样本来进行决策．
（3）"Argmax"方法：这是改进型的一对一类方法，在该方法中仍然只需要设计出与输入特征空间维度相当数量的判别函数即可实现多分类目标

Logistic 回归

Logistic 回归（Logistic Regression, LR）是一种常用的用于解决二分类问题的线性预测模型。

Softmax 回归

Softmax回归也被称作多项式Logistic回归或多类别Logistic回归。它可被视为将二分类Logistic回归扩展至多分类场景的一种方法。

支持向量机SVM 有监督学习

支持向量机（Support Vector Machine, SVM）是一种经典的二分类算法

信息熵,信息增益

剪枝处理

决策树基于综合考量了所有数据点而构建了一个复杂的决策树模型，在学习过程中致力于实现对训练样本尽可能准确的分类。这一过程会导致其结构过于繁复。此外，在实际应用中发现该模型容易出现过拟合现象，并且模型越复杂这种现象的程度越高。因此，在使用时需要采取预剪枝和后剪枝等策略来避免过拟合问题。

前馈神经网络

神经元

激活函数

激活函数在神经元中非常重要的．为了增强网络的表示能力和学习
能力，激活函数需要具备以下几点性质：
（ 1 ）连续并可导（允许少数点上不可导）的非线性函数．可导的激活函数
可以直接利用数值优化的方法来学习网络参数．
（ 2 ）激活函数及其导函数要尽可能的简单，有利于提高网络计算效率．
（ 3 ）激活函数的导函数的值域要在一个合适的区间内，不能太大也不能太
小，否则会影响训练的效率和稳定性．
下面介绍几种在神经网络中常用的激活函数．
Sigmoid 型函数
Sigmoid[ˈsɪgˌmɔɪd] 型函数是指一类 S 型曲线函数，为两端饱和函数．常用的 Sigmoid
型函数有 Logistic [lɒˈdʒɪstɪk]函数和 Tanh /tæntʃ/ 函数．

Tanh 函数可以看作放大并平移的 Logistic 函数，其值域是 (−1,1) ．

该类函数存在一定的计算负担较重的问题．由于这两个函数各自具有以下特性：它们分别在中间区域（靠近0附近）呈现近似线性行为，在两端则趋于饱和状态。

ReLU 函数

带泄露的 ReLU
leaky [ˈliːki]有漏洞的; 有漏隙的; 渗漏的;

带参数的 ReLU
parametric [ˌpɛrəˈmɛtrɪk]参数的

ELU 函数

Softplus 函数

前馈网络

在前馈网络中，各个神经元按照接收到信息的时间顺序被划分为不同的组别。每个组都可以视为一个神经层。每个层次内的神经元接收上一层所有神经元的输出，并传递到下一层次的神经元。整个网络的信息流动是单向的，在正向传播过程中不会出现逆向信息传递。这种关系可以用一个有向无环图来表示。

记忆网络

记忆网络也被称作反馈网络，在神经网络中不仅能够接收其他神经元提供的信息还能够存储自身的历史数据．与传统前馈网络不同的是，在记忆网络中神经元均具备一定的记忆能力表现出不同的工作状态．在该模型中信息传递方向既可以单向也可以双向进行因此可以用有向循环图或无向图进行描述

卷积神经网络

定义

问题

（1）变量过多
（2）在自然图像中,物体通常表现出局部不变性特征.例如,在尺度缩放、平移和旋转等操作下不会影响其语义信息.而全连接前馈网络难以提取这些局部不变性特征,并且通常需要通过数据增强来提高性能.

三个特征

从结构特征来看，则包括局域联结性、权值共享以及汇聚特性。其中局域联结性体现在每个神经元仅与其所接收的一小块输入区域产生联系。这一小块区域被称为感受野（receptive field）。在图像卷积操作中，则表现为该层神经元在空间维度（spatial dimension, 即上图示例H和W所在的平面）呈现局域联结性，在深度维度则实现全局化联结。同样地，在二维图像处理中这一特性同样适用。由于这种局域联结确保了学习后的滤波器能够对本地输入特征作出最强的响应。而这种设计灵感亦源自生物世界中的视觉系统构造特点：正如人眼视网膜中的视杆细胞与视锥细胞分别专注于远距离与近距离的信息接收一样，在深度学习模型中通过这种设计也能更好地模拟生物感知系统的特点

权值共享

汇聚层（ Pooling Layer ）也可称为子采样层（ Subsampling Layer ），其主要功能是通过下采样实现特征筛选并降低输入空间维度以减少模型参数数量．具体而言，在池化过程中，系统会将输入数据划分为若干区域，并对每个区域执行下采样操作以获得单个数值作为该区域的特征表示

卷积运算和运算后特征图大小计算

若题目未明确说明需填充时，在遇到无法整除的情况时，则采用向下取整的方式处理，并将丢失边界处的一些数据

卷积参数计算

以下题和下图为例

（在此规范一下叫法，如上图所示，卷积的集合称为卷积层，接下来分开的 3 3 3的叫卷积单元，再下来的3*3的叫卷积核（当然任意维度的可以叫卷积核））
1，输入有多少层，一个卷积核就要有多少层，如图所示输入为三层，每个卷积核就要有三层
2，输出的特征层有多少层就要多少个卷积单元，就要多少偏执，例如题目中输出P层，那么就要P给卷积单元和P个偏置
因此上题的答案是：