机器学习-期末复习题
-
给人脸打上标签再让模型进行学习训练的方法,属于()
-
强化学习 B. 半监督学习 C. 监督学习 D. 无监督学习
-
在机器学习中,用计算机处理一副图像,维度是:
-
上万维 B. 二维 C. 三维 D. 一维
以下关于降维的说法不正确的是?
A.降维是将训练样本映射到低维空间
B.降_dim不会影响数据质量
C.通过降_dim有助于更加深入地挖掘潜在的数据模式
D.降_dim有助于提供直观的数据展示手段
这些数据处理任务(即集成、转换、维度规约和数值规约)属于以下几个步骤中的哪一个环节?
- 以下哪种技术对于减少数据集的维度会更好?
B. 剔除具有过多缺失值的列
回归问题是通过建立函数关系来预测连续型目标变量的问题类型;而分类问题是基于训练数据学习输入属性与可能的目标类别的对应关系来实现对未知数据所属类别的判定
- 向量x=[1,2,3,4,-9,0]的L1范数是多少?
A.1
B.19
C.6
D.sqrt(111)
假设共有195幅图片,在这之中其中有67幅是猫咪的照片而剩下的78幅则是狗狗的照片
-
下列哪种方法可以用来防止过拟合的产生:( )。
A.引入更多特征
B.应用正则化技术
C.提高模型复杂度
D.以上均为正确选择 -
下列关于PCA说法正确的有 ( )?
A.PCA是一种监督学习算法
B.PCA在生成的新坐标轴中选择的第一个方向对应于原始数据中方差最小的方向
C.PCA分析后选取的第一主成分反映了最重要的特征信息
D.PCA处理数据时无需进行标准化处理
某超市通过分析销售记录数据得出结论:购买啤酒的顾客有较高的概率也会购买尿布。这种属于哪种数据分析方法?( )
A.关联规则发现
B.聚类
C.分类
D.自然语言处理
下面哪些是分类算法?
A. 基于肿瘤的体积和患者年龄的信息来判断肿瘤性质?
B. 通过分析用户的年龄、职业以及存款金额等信息来预测信用卡违约的可能性?
C. 询问身高1.85米且体重100公斤的人适合穿哪种T恤型号?
D. 通过分析房屋面积、卫生间的数量以及其他相关特征来估算房价
13.影响KNN算法效果的主要因素包括( )。
A.K的值
B.距离度量方式
C.决策规则
D.最邻近数据的距离
支持向量机有哪些常用的典型核函数( )。
A.高斯型核函数
B.拉普拉斯型核函数
C.线性内积核
D.多项式型核函数
16.以下关于支持向量机的说法正确的是 ( )。
A.该方法在处理大数据集时表现出良好的适应性
B.SVM的分类机制主要是通过最小化分类面之间的间隔
C.该算法具有简洁性和较强的稳定性
D.SVM的分类面主要由支持向量决定
17.下面关于支持向量机的描述正确的是( )。
A.是基于监督学习的方法
B.能够处理多类别问题
C.支持非线性核函数
D.被视为一个生成模型
下列哪项属于降维常用的降维技术?()
A. 主成分分析
B. 特征提取法
C. 线性判别分析方法
D. 离散化处理
19.PCA算法获取的超平面应具有哪些性质 ( )。
A.最近重构性
B.信息增益最大性
C.最大可分性
D.局部极小性
为了考察测试Y与X之间的线性关系(其中X为连续变量),应选用何种图示最为恰当?
- 散点图
- 柱形图
- 直方图
- 以上都不对
21.决策树中的分类结果是最末端的节点这些节点称为?
- 根节点
- 父节点
- 子节点
- 叶节点
22.基于人类发现的问题空间的数据进行机器学习运算,并具备解决该问题空间的能力;并且求解的过程与结果可被人类智能所(掌握),即为机器智能的产生。
- 理解
- 参考
- 相同
- 采纳
23.研究如何通过计算手段以经验为依据来提高自身性能的问题是什么?
A. 模型
B.表结构
C.结果
D.报表
24. 在传统的机器学习方法中包含有监督型、无监督型以及半监督型等方法;其中一种即为基于已标注数据集的学习方式。 那么问题在于:当标签属于离散型时被称为分类;而当标签属于连续型时则被称为什么?
A. 给定标签
B. 离散
C. 分类
D. 回归
25.机器学习的经典定义是()
A. 利用技术进行改善系统自身性能
B. 利用技术进行改善人的能力
C. 利用经验改善系统自身的性能
D. 利用经验改善人的能力
为了使机器具备智能能力, 必要条件是使机器获得知识. 这种方向在人工智能领域主要研究计算机如何自动生成知识与技能, 从而实现自主提升发展. 这类学科分支通常被称为()
A. 专家系统
B. 机器学习
C. 神经网络
D. 模式识别
27.以下哪个不是PCA算法可以解决的问题
A. 对维度较小的数据进行维度扩充
B. 对特征相关性较高的数据进行降维
C. 对维度大于3的数据进行可视化处理
D. 数据维度压缩
28.AI是下列哪个单词的缩写___________。
A、Automatic Intelligence
B、Artifical Intelligence
C、Automatic Information
D、Artifical Information
29.人工智能的目的是让机器能够___________,以实现某些脑力劳动的机械化。
A、具有智能 B、和人一样工作
C、替代人脑 D、模拟、延伸和扩展人的智能
30.被广泛认为是AI诞生的标志的是___________。
A、计算机的诞生 B、图灵机的出现
C、达特茅斯会议 D、神经网络的提出
31、下列属于绘图工具包的是_________。
A、Matplotlib B、Pandas C、NumPy D、BoKeh
为了在sklearn库中使用鸢尾花数据集所需的功能,请从sklearn.datasets导入特定函数。
A、load_iris B、load_wine C、load_diabetes D、load_digits
传统机器学习方法主要分为监督型、无监督型以及半监督型三种类型。其中,在有标签数据的情况下进行的学习被称为监督式训练。若数据中的类别变量属于离散型别,则称这种任务为分类;若类别变量属于连续型别,则称这种任务为_____。
A、给定标签 B、离散 C、分类 D、回归
34、在sklearn机器学习库中,主成分分析法对应的函数是_________。
A、RFECV() B、RFE() C、PCA() D、SVC()
35、在机器学习任务中,模型在真实环境中的误差叫做__________。
A、绝对误差 B、相对误差 C、泛化误差 D、真实误差
标准化处理能够将原始数据通过线性变换缩放到[0,1]区间,在sklearn机器学习库中,其具体实现为______。
A、MaxMinScaler() B、MinMaxScaler()
C、StandardScaler() D、RobustScaler()
37、下面算法不属于监督学习的是___________。
A、神经网络 B、线性回归 C、聚类 D、支持向量机
38、在sklearn机器学习库中,特征提取所在的模块是_________。
A、模型选择过程 B、模型提取方法 C、特征提取技术 D、以上均不正确
39.机器学习根据历史数据有没有标签可以分为哪⼏类以及它们各⾃的特点为?
A. 该方法将分为 supervised learning 和 unsupervised learning 两部分进行分类。其中,在 supervised learning 中使用的是带有标记的数据来进行训练;而 unsupervised learning 则基于带有标签的数据进行分析。
B. 将其划分为有监督学习与半监督学习两类,在有监督学习中存在无标签数据,在半监督学习中部分样本具有标签而另一部分则没有
C. 划分为有监督学习与无监督学习两类,在有监督学习中包含数据并带有标签,在无监督学习中则包含数据但不具有标签
D. 主要分为有监督学习和无监督学习两大类,在有监督学习中我们通常会直接使用标注了数据的学习任务,在半监督学习中,则是利用一部分被标注了(即具有标签)的数据和另一部分没有被标注的数据进行训练
40.以下说法正确的是?
A. 机器学习的⽬的在于从数据中发现有⽤的信息
机器学习的核心功能是通过对数据进行分析和建模来识别潜在模式,以便更有效地支持决策制定或实现机器自动执行指令或自主运作。
C. 机器学习只是对计算机仿真⽅法产⽣的数据进⾏模式的发掘
D. 机器学习就是⽤可视化⽅法展示数据中的多维度信息
41.关于学习率,以下描述错误的是?
A. 学习率设置太⼩,需要花费过多的时间来收敛
B. 学习率设置较⼤,在最⼩值附近震荡却⽆法收敛到最⼩值
C. 如果学习率⾜够⼩,随机梯度下降算法⼀定能获得全局最优解
D. 我们可以根据应⽤场景,在不同的优化阶段动态改变学习率
42. 创建100个0到1的随机分布,以下表达式正确的是?
A. np.random.rand(100)
B. np.rand.ranint(100)
C. np.randn(100)
D. np.rand.random_intergers(100)
43.以下关于分类问题的说法错误的是?
A. 分类问题输⼊属性必须是离散的
B. 分类属于监督学习
C. 回归问题在⼀定条件下可被转化为多分类问题
D. 多分类问题可以被拆分为多个⼆分类问题
44.该系统用于监狱 facial recognition application to identify the identities of individuals seeking entry. This system is designed to classify visitors into four distinct categories: prison staff, thieves, delivery personnel, and others. Which machine learning approach is most suitable for this application?
A. 回归问题
B. 二分类问题
C. 聚类问题
D. 多分类问题
45.以下哪组变量之间存在线性回归关系?
A. 正三角形的边长与周长
B. 学生的性别与他的成绩
C. 正方形的边长与面积
D. 儿子的身高与父亲的身高
46.构建一个最简单的线性回归模型需要几个系数(只有一个特征)?
A. 1
B. 2
C. 3
D. 4
47.向量x=[1,2,3,4,-9,0]的L1范数是多少?
A. 1
B. 6
C. 19
D. 111
48.以下说法错误的是?
A. 正则项的目的是为了避免模型过拟合
B. 最小二乘法不需要选择学习率
C. 残差是预测值与真实值之间的差值
D. 损失函数越小,模型训练得一定越好
49.哪个算法不需要数据归一化?
A. kNN
B. SVM
C. k-means
D. 决策树
50.以下哪些方法不能用于处理欠拟合?
A. 增加模型复杂度
B. 增大正则化系数
C. 增加新的特征
D. 对特征进行变换,使用组合特征或高维特征
51.以下哪些方法不能用于处理过拟合?
A. 利用正则化技术
B. 增加数据属性的复杂度
C. 对数据进行清洗
D. 增大训练数据的量
52.以下关于决策树特点分析的说法错误的有 ( )。
A. 推理过程容易理解,计算简单
B. 算法容易造成过拟合
C. 算法自动忽略了对模型没有贡献的属性变量
D. 算法考虑了数据属性之间的相关性
53.以下关于决策树原理介绍错误的有 ( )。
A. 决策树算法本质上是贪心算法
B. 决策树算法属于无监督学习
C. 决策树生成过程中需要用到分割法
D. 决策树决策过程从根节点开始
54.我们想要在大数据集上训练决策树模型,为了使用较少的时间,可以:( )。
A. 增大学习率
B. 减少树的数量
C. 减少树的深度
D. 增加树的深度
55.决策树有哪些代表算法 ( )。
A. ID3
B. C4.5
C. CART
D. CNN
56.回归问题和分类问题的区别是?
A. 回归问题与分类问题在输⼊属性值上要求不同
B. 回归问题输出值是连续的,分类问题输出值是离散的
C. 回归问题输出值是离散的,分类问题输出值是连续的
D. 回归问题有标签,分类问题没有
