机器学习期末复习
一、单项选择题(15题 每题 2 分,共 30 分)
二、判断题(10题 每题 2 分,共 20 分)
三、简答题( 4 题 共 20 分)
四、综合应用题(2题 每题 15 分,共 30 分)
数学基础
特征值分解
奇异值分解
拉格朗日乘子
协方差矩阵
TR
复习
基础知识
要求 :基本概念
要求 :数据集划分
要求 :性能度量
要求 :可以描述任务之间的关系
该系统能够支持多种不同的优化方法,并且对于同类型任务中不同算法的特性及其间的差异具有明确的理解能力。在实现具体功能时,可阐述各算法的特性,并对同类任务中不同算法的特性及其间的差异进行深入分析;该系统具备灵活多样的功能模块设计能力,在实际应用中能够根据具体需求动态调整工作流程;其优势在于能够有效解决问题,并通过智能优化机制提升整体性能水平;此外,在设计过程中充分考虑了用户体验因素,并通过多维度测试验证了系统的稳定性和可靠性
监督学习:
无监督学习:
回归 :基于标签的学习方法 标签为连续型数据 用于推测各变量间相互关联情况的一个统计分析工具。该方法被广泛应用在预测任务中,在数据趋势分析方面具有重要价值。具体而言 包括线性回归、决策树以及支持向量回归等算法。
分类: 有监督学习;具有离散标签;通过训练集对新数据点进行类别预测的过程;属于机器学习与模式识别领域的核心问题;常用的算法包括支持向量机(SVM)、决策树、逻辑回归、贝叶斯分类器及神经网络等。
聚类 :无监督学习环境下进行的聚类分析中没有预先标记的数据标签;其核心逻辑在于通过计算数据间的相似性指标将它们分组到不同的簇中。作为无监督学习的一种技术手段,在机器学习领域中被广泛应用于探索数据内部结构;常见的具体实现包括基于 prototype 的方法(如 k-means)、层次结构的方法(如 divisive 和 agglomerative)以及基于密度的方法(如 DBSCAN)。
降维度:主成分分析(PCA)是一种无监督学习方法;而线性判别分析(LDA)则是一种有监督学习方法。降维度的过程是依据特定规则对高维度数据进行缩减的技术手段,在实际应用中常与回归、分类、聚类等算法结合使用;常用的算法包括主成分分析(PCA)和线性判别分析(LDA),其中前者属于无监督学习方法。
模型的评估与选择过程涉及到经验误差和泛化误差等基本概念的理解。在模型训练过程中,过拟合与欠拟合的现象需要特别注意以避免影响模型性能。在实际操作中,我们通常采用留出法、交叉验证法以及自助法这三种方法来评估模型的效果。从性能指标来看,方差反映数据分布的变化程度;错误率为分类模型的分类错误比例;精度衡量预测结果中正确样本的比例;查全率反映了正类被正确识别的比例;查准率则表示被预测为正类的样本中有多少是真实的正类;而ROC AUC曲线则提供了分类器区分能力的有效度量
线性回归
任务:回归 或 多元回归
思想:最小化所有数据点到分类平面的均方误差
模型:凸优化函数

算法:最小二乘法 求解析解 严格的公式求解

算法特点:
要求:
可以按照自己的理解简述线性回归问题,掌握线性回归算法特点。
可以对简单数据进行计算。
逻辑回归
任务:线性分类
思想:最大化数据点的似然函数

模型:

算法:求近似解 梯度下降 牛顿法
掌握:
逻辑回归和线性回归的区别和联系,逻辑回归算法特点
梯度下降、牛顿法的基本原理 迭代公式
进行简单的数据运算
决策树 这个会考计算题
任务:回归或分类
思想:采用分而治之的思想对数据进行递归划分
模型:树形结构 采用特定准则选取属性
算法:ID3 C4.5 CART
三种不同的算法选择属性采用的准则不同:
ID3算法 采用信息增益 定义如下:

C4.5算法采用的是信息增益率 CART算法采用的是基尼指数

预剪枝和后剪枝
对连续值与缺失值的处理
感知机
任务:线性二分类 非线性不可分 比如异或
思想:最小化误分类的点 到分类平面的距离

算法:梯度下降
模型特点
PPT例子
多层神经网络
任务:线性分类 或 非线性分类
思想:利用多层神经网络对非线性的数据进行分类

算法:误差逆传播 梯度下降+链式法则
按照自己的理解简述基本神经元 多层网络模型 算法特点
BP的基本原理和迭代公式
支持向量机
任务:分类 回归
思想:最大化数据点到超平面的最短距离
模型:

算法:凸二次规划可解,效率低! 采用拉格朗日乘子法 + 对偶问题

要求:
支持向量机和其他算法的区别

简述软间隔支持向量机并简述和常规支持向量机的关系和区别
了解SMO算法
主成分分析 PCA (重点)
任务:非监督降维
思想:最大化投影后数据的方差 最小化重建误差
模型:非凸优化模型

算法:特征值分解 解析解
PCA算法的过程:
- 中心化 A = X - X均

- 计算协方差矩阵 C 为 A 与 AT 的乘积。
- 执行特征值分解。
- 基于特征值选择对应的特征向量并构建投影矩阵。
- 将输入样本映射至新的低维子空间以实现降维目标。
要求:
PCA算法的特点
核化PCA
线性判别分析 LDA
任务:监督降维
思想:最大化类间散度矩阵 最小化类内散度矩阵
模型:非凸优化模型

算法:广义特征值问题 求解析解
LDA算法流程:
- 求取每个类别及其样本所对应的类中心坐标,并求取所有样本点所对应的中心坐标。
- 求解各类内部数据点间的离差平方和构成的类内离散步骤矩阵以及各类之间数据点间的离差平方和构成的类间离散步骤矩阵。
- 通过数学运算得到全局信息提取矩阵 S = SW^{-1} \times Sb。
- 并基于特征值大小筛选出重要特征向量以构建降维后的投影矩阵。


- 输入原样本投影至新子空间完成降维

掌握LDA算法和PCA算法的区别和联系
掌握LDA算法的流程
进行简单的数据运算
K均值聚类
劳埃德算法流程
