Advertisement

机器学习期末考试题库【最全考试题库】

阅读量:

本文深入讲解机器学习相关概念并配有系统性梳理的知识点,帮助大家有效备考期末考试.如果你感兴趣的话,点个关注哦!后续还会为大家带来更多优质资源,记得三连击:点赞、收藏、关注哦!后续还会为大家带来更多优质内容.

两天疯狂的用心整理(o(╥﹏╥)o),请大数据将我推向更多需要的朋友们吧!!!!!

目录

本文对模式识别这门课程进行了非常详尽的教学,并配上了相应的练习题。无论是哪一部分的知识点都讲解得很透彻。对于这一部分知识的学习掌握情况如何?掌握这部分知识会对即将到来的期末考试大有裨益。如果觉得有帮助的话,请记得三连击(点赞、收藏、评论),您的支持对我来说很重要!后续我会继续为大家带来更多优质的内容

第一部分 问题

第二部分 答案


第一部分 问题

2.哪些机器学习算法不需要做归一化处理?

6.请简要说说一个完整机器学习项目的流程?

10.LR 和 SVM 的区别和联系?

请阐述(基于决策树的集成学习框架)GBDT 与 XGBoost 之间的主要差异。

25.说说常见的损失函数?

31.线性分类器与非线性分类器的区别以及优劣?

32.L2.L1 的区别?

36.具体 Google 是怎么利用贝叶斯方法,实现"拼写检查"的功能?

39.请详细说说 EM 算法?

42.机器学习中,为何要经常对数据做归一化?

49.随机森林如何评估特征重要性?

50.请说说 Kmeans 的优化?

51.KMeans 初始类簇中心点的选取。

52.解释对偶的概念。

53.如何进行特征选择?

54.衡量分类器的好坏?

56.数据预处理。

58.什麽造成梯度消失问题?

59.到底什么是特征工程?

60.你知道有哪些数据处理和特征工程的处理?

62.数据不平衡问题

63.特征比数据量还大时,选择什么样的分类器?

64.常见的分类算法有哪些?他们各自的优缺点是什么?

65.常见的监督学习算法有哪些?

66.说说常见的优化算法及其优缺点?

67.特征向量的归一化方法有哪些?

68.RF 与GBDT 之间的区别与联系?

69.证明样本空间任一点到超平面的距离公式

70.请比较下 EM 算法、HMM、CRF

71.带核的 SVM 为什么能分类非线性问题?

72.请说说常用核函数及核函数的条件

73.请具体说说 Boosting 和 Bagging 的区别

74.逻辑回归相关问题

75.什么是共线性, 跟过拟合有什么关联?

77.用贝叶斯机率说明 Dropout 的原理

78.对于维度极低的特征,选择线性还是非线性分类器?

79.请问怎么处理特征向量的缺失值

80.SVM、LR、决策树的对比。

81.什么是 ill-condition 病态问题?

82.简述 KNN 最近邻分类算法的过程?

83.常用的聚类划分方式有哪些?列举代表算法。

84.什么是偏差与方差?

85.解决 bias 和Variance 问题的方法是什么?

86.采用 EM 算法求解的模型有哪些,为什么不用牛顿法或梯度下降法?

87.xgboost 怎么给特征评分?

88.什么是 OOB?随机森林中OOB 是如何计算的,它有什么优缺点?

推导其概率P(c|d)的计算方法:给定一个由多个单词组成的文档d(即由若干word组成),我们需要计算该文档归类至类别c的概率,并分析公式中的哪些概率项能够在训练集中被估计得到。

91.请写出你对 VC 维的理解和认识

92.kmeans 聚类中,如何确定k 的大小

94.怎么理解“机器学习的各种模型与他们各自的损失函数一一对应?”

95.给你一个有 1000 列和 1 百万行的训练数据集。这个数据集是基于分类问题的。

经理要求你对数据集进行降维处理以提升模型运行效率。鉴于你的计算资源受限,你会采取哪些优化措施来确保任务顺利完成?

  1. 在 PCA 中进行旋转变换是否有必要?如果有这种需求存在,请说明原因。如果不对这些主成分进行旋转处理,在分析时可能会遇到哪些挑战?

提供一个数据集,请考虑其中包含缺失值的情况。这些缺失值集中在距离中位数约1个标准差的区间内。请问有多少百分比的数据不受影响?原因何在?

98. 基于癌症检测的数据集,在此情境下你已经成功构建了一个分类模型,并实现了高达96%的准确率。尽管该模型在测试集上表现出了较高的准确性(96%),但你仍对当前的性能表示不满。这可能源于哪些方面的原因?你可以采取哪些具体措施来提升它?

99.解释朴素贝叶斯算法里面的先验概率、似然估计和边际似然估计?

你正在致力于处理一个时间序列数据集。经理指示你要开发一个具有高精度的预测模型。最初你选择了决策树算法,并观察到该算法在各种类型的数据显示出了优异的效果。然而,在随后的尝试中发现,在这种特定的数据集中使用时间序列回归模型反而能显著提升预测效果

你被分配了一个新的项目任务,旨在帮助食品配送公司以更低的成本实现利润增长。问题是,由于送餐团队的工作效率不足,在某些情况下未能按时完成配送任务,这导致了客户的不满情绪。最后为了扭转这一局面,你希望找到一种解决方案来改善现状吗?

你认识到你的模型受到了低偏差和高方差问题的影响吗?如果你遇到这样的情况该如何选择相应的算法来解决这个问题?原因是什么?

103.给你一个数据集。该数据集包含很多变量,你知道其中一些是高度相关的。

107.KNN 和KMEANS 聚类有什么不同?

能否捕捉到连续变量与分类变量之间的相关性?如果可行的话,请具体说明如何实施。

在比较机器学习中的集成模型时,请分析 Gradient Boosting 方法(GBM)与随机森林之间的主要差异。

运用二元分类树算法相对容易;请问您是否了解一棵树是如何进行分割的呢?具体来说,请问这棵树是如何根据哪些变量将它们分配到根节点及其后续子节点中的?

你已构建了一个包含 1 万棵树的随机森林模型。
在获得 0% 的训练误差之后,你表现出极大的喜悦与困惑。
测试集上的错误率为 34.23%。
出现这种情况的原因是什么?你的模型似乎未能有效推广到测试数据上。

当面对一个数据集时(其中变量数量p超过观测值数量n),使用普通最小二乘法(OLS)被视为一种不太理想的选择。那么应该采用哪些替代方法来解决这一挑战?原因是什么?

117.什么是凸包?(提示:想一想 SVM)。

118.我们知道,一位有效编码会增加数据集的维度。但是,标签编码不会。为什么?

119.你会在时间序列数据集上使用什么交叉验证技术?是用 k 倍或 LOOCV?

遇到数据集中存在超过30%缺失值的情况时,请问该如何解决这一问题呢?例如,在某个数据集中共有50个变量,其中8个变量各自的数据缺失率均超过了30%。

121.“买了这个的客户,也买了......”亚马逊的建议是哪种算法的结果?

122.你怎么理解第一类和第二类错误?

在解决一个分类问题时,
为了检验模型性能的目的,
采用随机抽样的方法将训练集划分为训练集和验证集,
对于该模型在未见过的数据上表现出色的能力感到非常自信,
由于你在验证集上的准确率较高,
然而,在测试过程中出现较低的准确率后,
这让我不解:哪里出现了问题?

124.请简单阐述下决策树.回归.SVM.神经网络等算法各自的优缺点?

133.机器学习中的 L0.L1 与 L2 范数到底是什么意思?

144.线性回归要求因变量服从正态分布?

第二部分 答案

全部评论 (0)

还没有任何评论哟~