南京大学2019年秋高级机器学习期末考试

阅读量：

从最近重构性或最大可分性对PCA的目标函数进行推导，假设输入数据为X，每行为一个样例，投影矩阵为W。最近重构性通过最小化样本与重构点之间的距离来优化目标函数，而最大可分性则通过最大化样本在投影空间中的方差来优化目标函数。PCA是一种降维技术，通过正交变换将高维数据映射到低维空间，减少特征数量的同时保留数据的大部分信息。特征脸（eigenface）是一种利用PCA进行降维的应用，能够输出多张特征脸用于后续任务，降维体现在主成分的数量减少。马氏距离是一种重要的距离度量，其表达形式为√((x−μ)T M−1 (x−μ))，其中M为马氏距离矩阵，通常为单位矩阵时，马氏距离等于欧氏距离。Relief算法属于过滤式特征选择方法，其主要特点包括：过滤式选择直接过滤原始数据，与后续学习器无关；包裹式选择将学习器的性能作为特征子集的评价准则；嵌入式选择将特征选择与学习器训练过程融为一体。L1正则化在回归

1. 从最近重构性或者最大可分性对 $PCA$ 的目标函数推导（假设输入数据为 $X$ ，每一行为一个样例，投影矩阵为 $W$ ）

答：

最近重构性 ：

最大可分性 ：

主成分析（PCA）在人脸数据集中的重要应用是特征脸（eigenface）。该方法能够生成多张特征脸结果，并应用于后续分析任务。特征脸如何辅助实现降维操作？维度的降低体现在哪些方面？

答：

https://wenku.baidu.com/view/f6a03269492fb4daa58da0116c175f0e7dd11915.html

3. 马氏距离是一种具有重要地位的距离度量指标，设马氏距离的度量矩阵为 $M$ ，请推导其表达式。其中矩阵 $M$ 需要满足对称性和正定性。对比而言，马氏距离相较于欧氏距离具有如下优势：首先，它考虑了数据的协方差结构，能够更好地反映数据间的实际相似性；其次，马氏距离在高维空间中表现出较好的稳健性，避免了维度灾难带来的影响。

答：

$M$ 为单位阵的时候，马氏距离等于欧式距离。

4. $Relief$ 算法归类于哪一类特征选择方法？对比三种特征选择方法的主要区别。

答： $Relief$ 算法属于过滤式特征选择方法。

采用特征筛选机制，先从原始数据中去除不符合条件的数据，然后利用筛选出的特征进行模型训练。其中，特征筛选过程与后续的学习器设计保持独立性。

包裹式选择方法：该方法主要依据其性能作为特征子集的评价标准，以确保选择的最优性。

嵌入式选择采用特征嵌入方式，将特征选择过程与学习器训练过程融为一体。在同一个优化框架下，特征选择与模型训练同步进行，最终实现特征的自动优化。在学习器训练过程中，自动完成特征选择任务。

5. 如何利用L1正则化方法在回归问题中获得最优解的稀疏性？参数λ对模型稀疏性的影响程度如何？（例如，可绘制相关图表进行分析）

答：

当 $\lambda$ 增加时，解趋于稀疏。即使 $\lambda$ 的值很小，惩罚项的值也不会显著，但仍会导致过拟合现象。随着 $\lambda$ 的逐渐增大，过拟合现象的程度逐渐减弱。当 $\lambda$ 超过某个临界值时，欠拟合现象就会出现，这是因为惩罚项变得过于庞大，导致失去了过多的特征，甚至一些重要的特征也被遗弃。

6. 图半监督学习可采用 $\frac{1}{2}\sum^{m}_{i = 1}\sum^{m}_{j = 1}{W_{ij}(f(x_i)-f(x_j))}^2$ 的形式对模型施加约束，其中W为样本亲和矩阵，可简化为 $f^T(D-W)f$ 。D的具体表达式是什么，其含义是什么？

答： $D=diag(d_1,d_2,d_3,...,d_m)$ ，其中 $d_i=\sum^{m}_{j=1}W_{ij}$ ,即 $d_i$ 为 $W$ 中第 $i$ 行或 $i$ 列元素之和（ $W$ 对称)

7. $PAC$ 可学习的定义是什么，列举几种常用的假设空间。

8. 概率模型中生成式模型和判别式模型的区别？

答：简单来说，生成式模型通过建模联合概率分布来捕捉变量之间的相互关系，而判别式模型则通过建模条件概率分布来预测结果变量与输入变量之间的关系。

9. 马尔科夫链的性质？求 $HMM$ 联合分布的表达式。

答：
$P(y_i|y_{i-1},y_{i-2},...,y_{1})=P(y_i|y_{i-1})$
$P(x_i|y_{i},y_{i-1},y_{i-2},...,y_{1})=P(x_i|y_{i})$
$P(x_1,...,x_n,y_1,...,y_n)=P(y_1)P(x_1|y_1)\sum^{n}_{i=2}P(y_i|y_{i-1})P(x_i|y_i)$

10. $Sarsa$ 算法和 $Q-Learning$ 算法在迭代过程中的区别是什么。

答：

*Sarsa是一种基于策略的算法，在选择动作时采用 $\epsilon$ 贪心策略。

Q-Learning是一种基于价值的算法，在动作选择时采用确定性策略。

基于Bellman最优等式，证明策略选择的动作被改变为当前最优动作，从而改进策略。以γ折扣奖赏为例，该方法展示了如何通过动态规划方法实现最优策略的求解。

答：
$V^{\pi}(x)\leq V^{\pi{}'}(x)$

[推导]： $\begin{aligned} V^{\pi}(x)&\leq Q^{\pi}(x,\pi{}'(x))\ \\ &=\sum_{x{}'\in X}P_{x\rightarrow x{}'}^{\pi{}'(x)}(R_{x\rightarrow x{}'}^{\pi{}'(x)}+\gamma V^{\pi}(x{}'))\ \\ &\leq \sum_{x{}'\in X}P_{x\rightarrow x{}'}^{\pi{}'(x)}(R_{x\rightarrow x{}'}^{\pi{}'(x)}+\gamma Q^{\pi}(x{}',\pi{}'(x{}')))\ \\ &=\sum_{x{}'\in X}P_{x\rightarrow x{}'}^{\pi{}'(x)}(R_{x\rightarrow x{}'}^{\pi{}'(x)}+\gamma \sum_{x{}'\in X}P_{x{}'\rightarrow x{}'}^{\pi{}'(x{}')}(R_{x{}'\rightarrow x{}'}^{\pi{}'(x{}')}+\gamma V^{\pi}(x{}')))\ \\ &=\sum_{x{}'\in X}P_{x\rightarrow x{}'}^{\pi{}'(x)}(R_{x\rightarrow x{}'}^{\pi{}'(x)}+\gamma V^{\pi{}'}(x{}'))\ \\ &=V^{\pi{}'}(x) \end{aligned}$ 其中，使用了动作改变条件 $Q^{\pi}(x,\pi{}'(x))\geq V^{\pi}(x)$ 以及状态-动作值函数 $Q^{\pi}(x{}',\pi{}'(x{}'))=\sum_{x{}'\in X}P_{x{}'\rightarrow x{}'}^{\pi{}'(x{}')}(R_{x{}'\rightarrow x{}'}^{\pi{}'(x{}')}+\gamma V^{\pi}(x{}'))$ 于是，当前状态的最优值函数为

$V^{\ast}(x)=V^{\pi{}'}(x)\geq V^{\pi}(x)$

阐述基于"自顶向下"或"自底向上"方法生成一条规则的过程，如何防止每次仅选择一条"最优"文字而导致的局部最优解。

自顶向下方法：自顶向下方法是一种逐步细化的过程。为训练集中的每个属性的所有取值生成一个候选词项，采用特定的评估指标对每个候选词项进行评估，如准确率（或基尼系数、信息熵增益等）。根据候选词项的准确率、覆盖样本的数量以及属性的优先级进行选择。然后，从尚未被选中的属性中添加新的候选词项，并重复上述过程，直至所有候选词项的准确率达到100%。最终，被选中的候选词项组合形成一条规则。可以采用集束搜索（beam search）策略，每次保留若干最优候选规则。

全部评论 (0)

还没有任何评论哟~

南京大学2019年秋高级机器学习期末考试

1\.从最近重构性或者最大可分性对PCA的目标函数推导（假设输入数据为X，每一行为一个样例，投影矩阵为W）答：最近重构性：最大可分性： 2\.PCA一个重要应用是特征脸（eigenface），对...

MOOC 北京科技大学期末考试答案2020秋

暂无描述

北航高等数理逻辑期末考试题2019年秋

高等数理逻辑北航考试试题，高等数理逻辑教材用的是《面向计算机科学的数理逻辑》，这课怎么说，听是不可能听的，作业又不会，只有期末抄抄别人的样子。别的不论，只说考核方式和期末试题和部分题目的答案。考核方式...

南京大学计算机考研机试2019-1

南京大学计算机考研机试20191 给定l,r0\lel,r\le3e8，问[l,r]中的自然数满足下述条件的数有多少个？条件：数字的任意相邻两位差值都恰好为1，且数字至少有两位。

南邮《离散数学》2018-2019学年第一学期期末考试回忆

2019.1.610:2512:15《离散数学》考试刚考完，回忆一下题目。先总结一下：因为OBE工程认证，难度确实大了点，而且感觉考的知识点好细好多啊。主要还是自己复习的不够仔细，感觉考完不太好，...

2018华南农业大学2018年秋高级语言程序设计期末公开模拟考试

2018华南农业大学2018年秋高级语言程序设计期末公开模拟考试 1求数的位数描述由键盘输入一个不多于9位的正整数，要求输出它是几位数。输入格式一个整数输出格式输出该数为几位数输入样例 ...

中国地质大学(北京) 研究生数学课《机器学习》期末考试考试范围+考试题目+参考答案 2022秋

目录 1说在前面 2考试范围 2.1机器学习相关知识（科普类） 2.2上课时黑板写的数学计算、推导和证明等 2.3两次课程报告的内容 3考试真题 4参考答案 4.1机器学习应用 4.2学习率选择 4....

[HITML]哈工大2020秋机器学习期末试题

哈工大2020秋机器学习期末试题 (1) 样本标签Y和属性A1之间的信息可以选择属性。给出互信息的定义。 (2) 决策树空间很大，用互信息（信息增益）选择属性的目的？这样做有什么好处？ (3) 如...

电子科技大学本科机器学习期末考试指南

唔作为一个写前端的人工智能方向培养方案的学生准备这个还是有点吃力的不过考得不算难据说老师不会挂人～学弟学妹们看到了可以参考一下建议直接去我的语雀笔记那里看本课重点： 1P中有6页ppt（1P=...

机器学习期末考试复习

监督学习无监督学习 —— KNN算法聚类算法（最经典，包括很多聚类算法）线性回归算法（LinearRegression）主成分分析PCA 逻辑回归算法（LogisticRegression）高斯混合...

是否确定退出登录?

南京大学2019年秋高级机器学习期末考试

1. 从最近重构性或者最大可分性对PCA的目标函数推导（假设输入数据为X， 每一行为一个样例，投影矩阵为W）

4. Relief算法归类于哪一类特征选择方法？对比三种特征选择方法的主要区别。

5. 如何利用L1正则化方法在回归问题中获得最优解的稀疏性？参数λ对模型稀疏性的影响程度如何？（例如，可绘制相关图表进行分析）

6. 图半监督学习可采用\frac{1}{2}\sum^{m}_{i = 1}\sum^{m}_{j = 1}{W_{ij}(f(x_i)-f(x_j))}^2的形式对模型施加约束，其中W为样本亲和矩阵，可简化为f^T(D-W)f。D的具体表达式是什么，其含义是什么？

7. PAC可学习的定义是什么，列举几种常用的假设空间。

8. 概率模型中生成式模型和判别式模型的区别？

9. 马尔科夫链的性质？求HMM联合分布的表达式。

10. Sarsa算法和Q-Learning算法在迭代过程中的区别是什么。

全部评论 (0)

相关文章推荐

南京大学2019年秋高级机器学习期末考试

MOOC 北京科技大学 期末考试答案2020秋

北航高等数理逻辑期末考试题2019年秋

南京大学计算机考研机试2019-1

南邮《离散数学》2018-2019学年第一学期期末考试回忆

2018华南农业大学2018年秋高级语言程序设计期末公开模拟考试

中国地质大学(北京) 研究生 数学课《机器学习》期末考试 考试范围+考试题目+参考答案 2022秋

[HITML]哈工大2020秋机器学习期末试题

电子科技大学本科机器学习期末考试指南

机器学习期末考试复习

1. 从最近重构性或者最大可分性对 $PCA$ 的目标函数推导（假设输入数据为 $X$ ，每一行为一个样例，投影矩阵为 $W$ ）

4. $Relief$ 算法归类于哪一类特征选择方法？对比三种特征选择方法的主要区别。

6. 图半监督学习可采用 $\frac{1}{2}\sum^{m}_{i = 1}\sum^{m}_{j = 1}{W_{ij}(f(x_i)-f(x_j))}^2$ 的形式对模型施加约束，其中W为样本亲和矩阵，可简化为 $f^T(D-W)f$ 。D的具体表达式是什么，其含义是什么？

7. $PAC$ 可学习的定义是什么，列举几种常用的假设空间。

9. 马尔科夫链的性质？求 $HMM$ 联合分布的表达式。

10. $Sarsa$ 算法和 $Q-Learning$ 算法在迭代过程中的区别是什么。

MOOC 北京科技大学期末考试答案2020秋

中国地质大学(北京) 研究生数学课《机器学习》期末考试考试范围+考试题目+参考答案 2022秋