Advertisement

机器学习期末题库

阅读量:

机器学习 机器学习 课程资源

1.属于监督学习的机器学习算法是:贝叶斯分类器

2.属于⽆监督学习的机器学习算法是:层次聚类

3.⼆项式分布的共轭分布是:Beta分布

4.多项式分布的共轭分布是:Dirichlet分布

5.朴素贝叶斯分类器的特点是:假设样本各维属性独⽴

6.下列⽅法没有考虑先验分布的是:最⼤似然估计

基于正态分布的概率贝叶斯分类器中,在不同类别间的协方差矩阵均相同时,则其决策函数表现为线性形式

8.下列属于线性分类⽅法的是:感知机

9.下列⽅法不受数据归⼀化影响的是:决策树

10.下列分类⽅法中不会⽤到梯度下降法的是:最⼩距离分类器

11.下列⽅法使⽤最⼤似然估计的是:Logistic回归

12.线性鉴别分析的核心在于确定一个投影方向,在此方向上能够实现最小化类别内部的距离同时最大化类别之间的间距

13.SVM的原理的简单描述,可概括为:最⼤间隔分类

SVM的算法性能受因素影响:包括(核函数的选择及其实现方式、其相关的参数设置、模型中使用的惩罚系数)

15.⽀持向量机的对偶问题是:凸⼆次优化

16.以下对⽀持向量机中的⽀撑向量描述正确的是:最⼤间隔⽀撑⾯上的向量

假设采用二阶线性核SVM模型并将其应用于实际数据集后发现其训练准确率达到100%测试准确率同样达到100%请问当提升模型复杂度(通过提高核函数阶数)时会出现什么情况:过拟合

18.避免直接的复杂⾮线性变换,采⽤线性⼿段实现⾮线性学习的⽅法是:核函数⽅法

19.关于决策树节点划分指标描述正确的是:信息增益越⼤越好

20.以下描述中,属于决策树策略的是:最⼤信息增益

21.集成学习中基分类器的选择如何,学习效率通常越好:分类器多样,差异⼤

22.集成学习中,每个基分类器的正确率的最低要求:50%以上

23.下⾯属于Bagging⽅法的特点是:构造训练集时采⽤Bootstraping的⽅式

24.下⾯属于Bagging⽅法的特点是:构造训练集时采⽤Bootstraping的⽅式

25.随机森林⽅法属于:Bagging⽅法

假设存在一个数据集S, 但由于该数据集存在较多的误差, 采用软间隔支持向量机(SVM)进行训练, 其中参数C的取值较小. 在这种情况下, 下列哪种说法是正确的: 模型是否会进行误分类?

当软间隔SVM的阈值趋向于无穷大时, 以下哪一选项正确?即当最佳分类超平面存在时, 它能够将所有数据完全正确地分类

28.⼀般,K-NN最近邻⽅法在什么情况下效果好:样本较少但典型性较好

29.回归问题和分类问题的区别:前者预测函数值为连续值,后者为离散值

30.最⼩⼆乘回归⽅法的等效回归⽅法:线性均值和正态误差的最⼤似然回归

31.正则化的回归分析,可以避免:过拟合

"啤酒-纸尿布"问题涉及超市购物中的数据挖掘问题。通过对顾客购买数据的分析发现,在购买纸尿布的男性顾客中往往会购买啤酒。这属于关联规则挖掘的问题。

33.KL散度是根据什么构造的可分性判据:类概率密度

34.密度聚类⽅法充分考虑了样本间的什么关系:密度可达

35.混合⾼斯聚类中,运⽤了以下哪种过程:EM算法

36.主成分分析是⼀种什么⽅法:降维⽅法

当PCA执行降维处理时,在选择主要特征方面遵循哪些原则?这通常涉及到对中心化样本计算其协方差矩阵的最大特征值及其对应的特征向量

38.过拟合现象中:训练样本的测试误差最⼩,测试样本的正确识别率却很低

39.如右图所⽰有向图,节点G的马尔可夫毯为:{D,E,F,H,I,J}

40.如右图所⽰⽆向图,节点G的马尔可夫毯为:{D,E,I,J}

41.多层感知机⽅法中,可⽤作神经元的⾮线性激活函数:Logistic函数

42.在有限⽀撑集上,下⾯分布的熵最⼤:均匀分布

43.已知均值和⽅差,下⾯哪种分布的熵最⼤:⾼斯分布

44.以下模型中属于概率图模型的是:受限玻尔兹曼机

45.如右图所⽰有向图,以下陈述正确的有:B和G关于{C,F}条件独⽴

46.在标准化公式中,使⽤的⽬的是:防⽌分母为零

47.梯度下降算法的正确步骤是什么:4,3,1,5,2 (初始化-输⼊-计算误差-改变权重以减⼩误差-迭代更新)
(1)计算预测值和真实值之间的误差
(2)迭代跟新,直到找到最佳权重
(3)把输⼊传⼊⽹络,得到输出值
(4)初始化随机权重和偏差
(5)对每⼀个产⽣误差的神经元,改变相应的(权重)值以减⼩误差
48.假如使⽤⼀个较复杂的回归模型来拟合样本数据,使⽤岭回归,调试正则化参数,来降低模型复杂度。若λ较⼤时,关于偏差和⽅差,下列说法正确的是:若λ较⼤时,偏差减⼩,⽅差减⼩

49.以下哪种⽅法会增加模型的⽋拟合风险:数据增强

50.以下说法正确的是:除了EM算法,梯度下降也可求混合⾼斯模型的参数

在训练神经网络时, 如果呈现training error过高, 则无法大幅减少training error: 增加数据量

52.以下哪种激活函数可以导致梯度消失:Tanh

53.增加以下哪些超参数可能导致随机森林模型过拟合数据:(2)决策树的深度

54.以下关于深度学习训练的说法正确的是:D
A. 在训练过程中,梯度起到关键作用(其中梯度表征了损失函数对模型参数变化的程度)
B. 损失函数表征了模型预测结果与真实值之间的差距
C. 反向传播方法成为训练机制的核心技术
D. 以上各项均正确
55. 在神经网络中引入非线性的元素通常采用ReLU方法

  1. 在线性回归模型中采用正则化技术后发现有较多系数被置零,则可能使用的正则化技术包括:
    L0-Norm 和 L1-Norm
  2. 在卷积神经网络(CNN)中以下结论正确的是:池化层负责降低图像的空间分辨率

58.关于k-means算法,正确的描述是:初始值不同,最终结果可能不同

59.下列关于过拟合现象的描述中,哪个是正确的:训练误差⼩,测试误差⼤

以下关于卷积神经网络的说法正确的是:卷 convolutional neural networks具有多个卷积核,并且这些核可以采用不同尺寸。

61.LR模型的损失函数是:交叉熵

62.GRU和LSTM的说法正确的是:GRU的参数⽐LSTM的参数少

63.以下⽅法不可以⽤于特征降维的有:Monte Carlo method

64.下列哪个函数不可以做激活函数:y=2x

包含两个样本点的第一和第二(或第二)正负样本来确定其SVM线性分类面方程式。

  1. 假设其他条件保持不变,在机器学习中哪一种做法容易导致过拟合问题?SVM算法中采用高斯核来替代线性核。

67.下⽅法中属于⽆监督学习算法的是:K-Means聚类

68.Bootstrap数据是什么意思:有放回地从总共N个样本中抽样n个样本

69.下⾯关于贝叶斯分类器描述错误的是:是基于后验概率,推导出先验概率

70.下⾯关于Adaboost算法的描述中,错误的是:同时独⽴地学习多个弱分类器

71.以下机器学习中,在数据预处理时,不需要考虑归⼀化处理的是:树形模型

  1. 在二分類任務中包含三個分類器h₁、h₂、h₃,在測試集合中包含测试点x₁、x₂、x₃。其中数值为₁的表⽰該分類器对该测试点做出了正確判定而為₀則意味判定錯誤。已知 h₁在各個測試點上的判定結果分别为(¹,¹,₀),而 h₂ 和 h₃ 分別為(₀,¹,¹)與(¹,₀,¹)。采用投票机制結合这三个模型后测得的集成模型性能表现出了提升

关于机器学习分类算法中的PrecisionRecall的定义,请问哪一项是正确的?(假定tp为真正例数(true positives),tn为真正负例数(true negatives),fp为假正例数(false positives),fn为假负例数(false negatives):)

Precision= tp / (tp + fp), Recall = tp / (tp + fn)

74.下列哪个不属于常⽤的⽂本分类的特征选择算法:主成分分析

在隐马尔可夫模型(HMM)中,在给定观测序列及其对应的隐含状态序列的情况下,则可采用以下哪种方法直接进行参数估计:极大似然估计

76.以下哪种距离会侧重考虑向量的⽅向:余弦距离

77.解决隐马模型中预测问题的算法是:维特⽐算法

对于Logistic Regression模型来说,在引入L1范数的同时加入L2范数会产生什么样的影响

  1. 标准反向传播算法与基于时间的反向传播算法(BPTT)在技术上有何差异:相较于标准反向传播而言,BPTT会在每个时间段内累加所有相关权重的梯度

  2. 梯度爆炸的本质问题是由于在训练深度神经网络的过程中, 梯度变得过大而导致损失函数趋向无穷大。对于RNN模型来说, 下面哪种方法能够有效地缓解这一问题

当训练⼀个神经⽹络用于图像识别任务时,在实际操作中通常会绘制训练集误差与验证集误差曲线来进行监控和评估其性能。根据下图中的数据结果,请判断最优停训时机是什么时候?答案:C

外部链接中的图片无法正常上传至 Typora 应用程序,请您考虑将图片保存后直接上传至该平台以解决此问题。建议您检查是否存在网站防盗链设置,并采取相应措施以确保上传成功。

第 1 题

一个计算机程序通过经验E来学习任务T,并使用指标P来评估其表现能力;同时,在积累经验E的过程中,T的表现P逐步提升;假设我们将大量历史天气数据输入到一个学习算法中,并使其被训练以预测未来的天气情况;那么,在这种情况下P的具体选择应如何确定?

A. 计算海量历史气象数据的步骤
B. 以上都不
C. 计算特定日期天气发生的几率
D. 提供准确的天气预报服务

第 2 题

假如你正在从事天气预报工作,并采用算法来预测明天的气温(以摄氏度/华氏度为单位),你会将这个问题归类为分类问题还是回归问题?

A. 分类
B. 回归

第 3 题

在进行股票市场分析时, 假设你要判断特定公司在未来七天是否会宣告破产(基于过去因财务危机而陷入破产的企业数据进行建模)。这个问题应该归类为分类模型还是回归模型?

A. 分类
B. 回归

第 4 题

对于某些问题而言,在有监督的情况下更为合适;而对于另一些问题,则更适合采用无监督的方法。请判断以下哪些情况适合采用监督学习?(选择所有适用的选项)在每种情形下,请假设具备相应的数据集用于训练算法。

A. 根据一个人的基因(DNA)数据,预测他/她的未来10年患糖尿病的几率

B. 基于心脏病患者的丰富医疗数据集, 我们可以通过探索是否存在不同类型的患者群体来制定个性化的治疗方案

让计算机分析一段音频样本,并通过自动识别技术判断该音频中是否存在人声成分(例如是否存在人声元素),同时也判断是否存在纯乐器演奏的情况

我们收集了1000名医疗患者的实验药物结果数据(包括疗效指标、不良反应等指标的数据),并试图确定这些患者对药物是否存在不同类型的反应类别或特征;如果存在,则具体表现为哪些类型特征?

第 5 题

哪一个是机器学习的合理定义?

A. 机器学习从标记的数据中学习

B. 机器学习能使计算机能够在没有明确编程的情况下学习

C. 机器学习是计算机编程的科学

D. 机器学习是允许机器人智能行动的领域

第 6 题

根据一个学生的大学第一年的学业表现来估计其在大学第二年的学业表现。令x表示该学生在大学第一年获得的A等级数量(包括A-、A及A+等),并记录其一学年的全部成绩。在线性回归模型中,我们假设hθ(x)=θ0+θ1x,并使用m表示训练样本的数量。

复制代码
|x|y|
|---|---|
|1|2|
|0|1|
|4|3|

针对所述提供的训练集(特别提示:此训练集也可用于本测验其他相关问题),m的具体数值是什么?

第 7 题

针对这个问题而言,并基于第一题中的训练集进行假设分析。此外,我们对损失函数的定义为:J(θ₀, θ₁) = (1/(2m))∑_{i=1}^m (h_θ(x^{(i)}) − y^{(i)})² 。请求解该损失值 J(0, 1) 的具体数值是多少?

第 8 题

令问题1中,线性回归假设的θ0=−1,θ1=2,求hθ(6)?

第 9 题

该函数J(θ₀, θ₁)与参数θ₀、θ₁之间的关系如图2所示。'图1'中展示了相同代价函数的等高线分布情况。因此,请通过观察图形选择正确的选项(全部选中)。

Image Name

A. 以B点为起点,在适当的学习率下采用的梯度下降方法将引导我们抵达或趋近于A点;这表明该代价函数J(\theta_0,\theta_1)在A点取得极小值。

B. 点P(图2的全局最小值)对应于图1的点C

基于B点出发的梯度下降算法,在适当的学习率下将会引导我们抵达或趋近于C点;同时,在该点处的代价函数J(θ0,θ1)达到了其最小值

D. 从B点出发,在使用适当的梯度下降算法后会引导我们抵达或接近A点;该函数在A点取得极大值

E. 点P(图2的全局最小值)对应于图1的点A

第 10 题

假设对于某个线性回归问题(例如预测房价),我们有一组训练数据D。基于我们的训练数据D,我们可以确定一组参数θ₀和θ₁使得损失函数J(θ₀, θ₁)=0

A. 为了实现这一点,我们必须有θ0=0,θ1=0,这样才能使J(θ0,θ1)=0

B. 对于满足J(θ0,θ1)=0的θ0,θ1的值,其对于每个训练例子(x(i),y(i)),都有hθ(x(i))=y(i)

C. 这是不可能的:通过J(θ0,θ1)=0的定义,不可能存在θ0,θ1使得J(θ0,θ1)=0

D. 即使对于未曾见过的新例子, 我们同样能够准确预测y值(例如, 能够精确预测未曾见过新房的价格)

第 11 题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eIxCOuA6-1655199702382)(C:\Users\Crescent_P\AppData\Roaming\Typora\typora-user-images\image-20220612171415306.png)]

第 12 题

外部链接中的图片无法正常下载

第 13 题

外部链接中的图片未能成功加载,请注意可能存在防盗链保护机制,请确保该资源的安全访问权限后再尝试重新上传;如果问题持续存在,则建议您手动保存该图片后重新上传以规避潜在的网络访问限制

第 14 题

外部链接中的图片无法正常上传,请参考以下路径访问:[C:\Users\Crescent_P\AppData\Roaming\Typora\typora-user-images\image-20220612171343679.png]

第 15 题

令A和B是3x3矩阵,以下哪一项一定是正确的(选出所有正确项)

A. 该运算符合交换律性质。
B. 当v为三维向量时,则A⋅B⋅v的结果仍是三维向量。
C. 则AB A等于BA B。
D. 若C等于AB,则称矩阵C为六乘六矩阵。

第十六题 此处

设m为4名学生参加一次课程,在其中既有期中测试也有期末考试期间进行教学活动。您已汇总了他们在两个阶段的成绩数据集,请查阅以下具体信息:

期中得分 (期中得分)^2 期末得分
89 7921 96
72 5184 74
94 8836 87
69 4761 78

你打算利用多项式回归模型预测一名学生在期中考试中的成绩。具体而言,在构建模型时,请考虑以下形式:h_θ(x) = θ₀ + θ₁x₁ + θ₂x₂。其中x₁代表期中考试得分数值本身(即原始得分),而x₂则表示该得分平方后的结果。此外,在模型训练过程中,请同时实施两个数据预处理步骤:一是特征缩放(即将每个特征标准化至零均值、单位方差范围内),二是均值归一化(即将每个样本的输入特征调整至同一尺度)。

标准化后的x2(4)特征值是多少?(提示:期中=89,期末=96是训练示例1)

第 17 题

以α=0.3的学习率进行15次梯度下降迭代,在每次迭代后计算损失函数值J(θ)。你将观察到损失函数值J(θ)呈缓慢下降趋势,并且在经过15次迭代后仍处于持续下降阶段。基于这一现象,请判断以下哪个结论似乎是合理的?

A. α=0.3是学习率的有效选择。

B. 与其使用α当前值,不如尝试更小的α值(比如α=0.1)

C. 与其使用α当前值,不如尝试更大的α值(比如α=1.0)

第 18 题

假设给定m=14个训练示例和n=3个特性(不含需要额外添加的恒为1的截距项)。正规方程可表示为θ=(XTX)^{-1}XTy。对于给定m和n的具体数值,请确定θ、X和y各自的维度。

A. X 14×3, y 14×1, θ 3×3
B. X 14×4, y 14×1, θ 4×1
C. X 14×3, y 14×1, θ 3×1
D. X 14×4, y 14×4, θ 4×4

第 19 题

假设有m=1, 你的任务是决定在面对如此大规模的数据时是使用梯度下降法还是正规方程来解决这个问题。具体来说,在一个包含m=1, 你会面临哪些挑战?

A. 梯度下降,因为正规方程中θ=(XTX)−1中计算非常慢

B. 正规方程,因为它提供了一种直接求解的有效方法

C. 梯度下降,因为它总是收敛到最优θ

D. 正规方程,因为梯度下降可能无法找到最优θ

第 20 题

以下哪些是使用特征缩放的原因?

A. 它可以防止梯度下降陷入局部最优

B. 它通过降低梯度下降的每次迭代的计算成本来加速梯度下降

C. 它通过减少迭代次数来获得一个好的解,从而加快了梯度下降的速度

D. 它防止矩阵XTX(用于正规方程)不可逆(奇异/退化)

第 26 题

假设我们已经训练了一个逻辑分类器。该分类器在新示例x上生成了一个估计值hθ(x)=0.4。这表明(选出所有正确项):

A. 我们对P(y=0∣x;θ)的估计是0.4

B. 我们对P(y=1∣x;θ)的估计是0.6

C. 我们对P(y=0∣x;θ)的估计是0.6

D. 我们对P(y=1∣x;θ)的估计是0.4

第 27 题

假设您有以下训练集,并拟合logistic回归分类器hθ(x)=g(θ0+θ1x1+θ2x2)

Image Name
Image Name

以下哪项是正确的?选出所有正确项

引入多项式特征项(如通过构建h_θ(x)=g(θ_0 + θ_1 x_1 + θ_2 x_2 + … + θ_5 x₂²)的方式)有助于提升模型对训练数据的拟合程度。

B. 在θ的最佳值(例如,由fminunc找到)处,J(θ)≥0

C.引入多项式特征项(如h_θ(x)=g(θ₀ + θ₁ x₁ + θ₂ x₂ + θ₃ x₁² + θ₄ x₁ x₂ + θ₅ x₂²),这将导致J(θ)增大;这是因为此时我们已经考虑了更多的变量组合。

经过充分的梯度下降迭代次数,在训练集中的某些样本x(i)上可能导致hθ(x(i))超过1

第 28 题

对于逻辑回归的具体表达式为\frac{\partial}{\partial \theta_j} J(\theta) = \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) x_j^{(i)},基于学习率\alpha的逻辑回归模型中,请判断哪些是正确的参数更新规则?

A. θ:=θ−α1m∑i=1m(θTx−y(i))x(i)

B. θj:=θj−α1m∑i=1m(11+e−θTx(i)−y(i))xj(i)(同时更新所有j)

C. θj:=θj−α1m∑i=1m(hθ(x(i))−y(i))x(i)(同时更新所有j)

D. θj:=θj−α1m∑i=1m(hθ(x(i))−y(i))xj(i)(同时更新所有j)

第 29 题

以下哪项陈述是正确的?选出所有正确项

在逻辑回归中使用梯度下降法时偶尔会陷入局部极小值(而无法到达全局极小值)。因此我们更倾向于采用更为高效的优化方法

B. sigmoid函数g(z)=11+e−z数值永远不会大于1

C.用m≥1个例子训练的逻辑回归的代价函数J(θ)总是大于或等于零

D. 使用线性回归+阈值的方法做分类预测,总是很有效的

第 30 题

设训练一个逻辑回归分类器为h_\theta(x)=g(\theta_0+\theta_1 x_1+\theta_2 x_2)。其中参数设定为:\theta_0=6, \theta_1=-1, \theta_2=0。请判断以下哪个图形展示了该分类器所确定的决策边界?

A.

Image Name

B.

Image Name

C.

Image Name

D.

Image Name

Week 3 | 2 正则化

第 31 题

你正在训练一个分类逻辑回归模型。以下哪些选项是正确的?请选出所有正确选项

A. 将正则化引入到模型中,总是能在训练集上获得相同或更好的性能

B. 在模型中添加许多新特性有助于防止训练集过度拟合

C. 将正则化融入模型中时,在训练集之外的数据上能够保持相同或超越的效果。

D. 向模型中添加新特征总是会在训练集上获得相同或更好的性能

第 32 题

在执行了两次逻辑回归分析后发现,在λ取值为0时参数θ分别为81.47、2.69;而在λ取值为1时参数θ分别为13.01、0.91。然而由于记忆模糊导致无法区分这两个结果各自对应的λ值,请推测哪一个结果可能与较大的λ值相关联?

A. θ=[13.010.91]

B. θ=[81.4712.69]

第 33 题

以下关于正则化的陈述哪一个是正确的?选出所有正确项

A. 使用过高设置的λ值可能导致您的模型对训练数据过于依赖;通过降低λ值可以有效避免这种情况。

B. 使用较大的数值λ对假设性能的影响较小;我们避免将λ设置过高主要是为了防止出现数值不稳定的问题

设我们考虑一个分类问题。引入正则化项可能导致分类器在某些训练样本上产生误判(即当正则化系数λ取零值时,该模型仍能正确识别这些训练样本)

由于逻辑回归的预测值被限制在0到1之间,在这种情况下即使应用正则化方法也无法显著地缩小其有效范围

第 34 题

下列哪一个图片的假设与训练集过拟合?

A.

Image Name

B.

Image Name

C.

Image Name

D.

Image Name

第 35 题

下列哪一个图片的假设与训练集欠拟合?

A.

Image Name

B.

Image Name

C.

Image Name

D.

Image Name

第 36 题

以下哪项陈述是正确的?选择所有正确项

神经网络中隐藏单元的激活值,在经过 sigmoid 函数的应用后始终位于区间 (0,1) 内

B. 在二进制值(0或1)上的逻辑函数可以(近似)用一些神经网络来表示

C. 两层(一个输入层,一个输出层,没有隐藏层)神经网络可以表示异或函数

考虑一个包含三个类别且采用三层神经网络进行分类的任务。令a₁^{(3)} = h_Θ(x)₁表示第一个输出单元的激活值;同理可得a₂^{(3)} = h_Θ(x)₂和a₃^{(3)} = h_Θ(x)₃。因此,在对任意输入x进行处理时,则有∑_{k=1}^3 a_k^{(3)} = 1。

第 37 题

本研究考虑了两个二进制变量x₁和x₂∈{0,1}以及输出hΘ(x)的神经网络。该神经网络(近似)模拟了以下哪个逻辑函数?

Image Name

A. OR
B. AND
C. NAND (与非)
D. XOR (异或)

第 38 题

请分析如下的神经网络模型中哪一个方程正确计算了a₁^{(3)}的激活值?其中g(z)代表sigmoid函数

Image Name

A. a1(3)=g(Θ1,0(2)a0(2)+Θ1,1(2)a1(2)+Θ1,2(2)a2(2))

B. a1(3)=g(Θ1,0(1)a0(1)+Θ1,1(1)a1(1)+Θ1,2(1)a2(1))

C. a1(3)=g(Θ1,0(1)a0(2)+Θ1,1(1)a1(2)+Θ1,2(1)a2(2))

D. 此网络中不存在激活a1(3)

第 39 题

你有以下神经网络:

Image Name

你想计算隐藏层a(2)∈R3的激活,一种方法是使用以下Octave代码:

Image Name

您需要一个向量化实现(即无需循环的实现)。在以下选项中,请判断哪种实现能够正确计算a(2),然后选择所有正确的选项。

A. 由Theta1与x的乘积得出z;通过sigmoid函数将z转换为a2
B. x与Theta1的乘积经过sigmoid函数处理后得到a2
C. 通过将x与Theta2相乘后再应用sigmoid函数来计算a2
D. 由x经过sigmoid函数处理得到z;通过将z与Theta1相乘后再应用sigmoid函数来计算a2

第 40 题

您正通过下图展示的神经网络架构来实现机器学习模型的设计与实现,并已训练出参数矩阵Θ¹ = [1 1 2.4; 1 1 73; .2](用于计算第二层激活值a²),以及参数矩阵Θ² = [10; -1.2](用于作用于第二层激活值以生成第三层激活值a³)。

如果我们交换第一层隐藏单元中的两个参数θ₁ = [1 7 3 . 2 1 1 2 .4]以及第二层输出单元对应的参数θ₂ = [−1 . −0 . −0 . −0 . −0 . −0 . −0 . −0 . −0 . −0 . ]。这将如何影响hθ(x)的输出结果?

Image Name

A. 不变
B. 变大
C. 变小
D. 信息不全,可能变大也可能变小

第 41 题

您正在对一个三层神经网络进行训练,并希望使用反向传播算法来计算其代价函数的梯度过程。在反向传播过程中, 其中一个步骤是更新 \Delta_{ij}^{(2)} := \Delta_{ij}^{(2)} + \delta_i^{(3)} * (a^{(2)})_j; 其中ij分别代表输入层神经元的数量以及中间层神经元的数量, 请指出这个步骤中正确的矢量化形式是什么?

A. Δ(2):=Δ(2)+(a(2))T∗δ(3)
B. Δ(2):=Δ(2)+(a(3))T∗δ(2)
C. Δ(2):=Δ(2)+δ(3)∗(a(2))T
D. Δ(2):=Δ(2)+δ(3)∗(a(3))T

第 42 题

设Θ₁为一个5×3矩阵,并设Θ₂为一个4×6矩阵。定义向量θVec为[Θ₁ (;) ; Θ₂(:)]。以下哪一选项能够正确还原Θ₂?

A. 将向量thetaVec从第17个一直到第39个元素进行重置形状操作,并将其以每行包含四个元素的形式排列成六列。
B. 将向量thetaVec从第十六个一直到第三十八个元素进行重置形状操作,并将其以每行包含四个元素的形式排列成六列。
C. 将向量thetaVec从第十六个一直到第二十四个元素进行重置形状操作,并将其以每行包含四个元素的形式排列成六列。
D. 将向量thetaVec从第五个一直到第三十九个元素进行重置形状操作,并将其以每行包含四个元素的形式排列成六列。
E. 将向量thetaVec从第十七个一直到第三十九个元素并将其以每列包含六个、每行为四的形式重新排列。

第 43 题

定义J(θ)为2θ³加2,并设定初始值参数分别为θ=1和步长大小为0.01。接下来采用中心差分公式计算在该初始点处的导数近似值,请问具体数值是多少?(此时精确导数dJ/dθ等于6)

A. 8
B. 6
C. 5.9998
D. 6.0002

第 44 题

以下哪项陈述是正确的?选择所有正确项

A. 较大λ值的应用不会对神经网络的性能产生显著影响;避免数值问题是我们不选择过大的λ的主要原因。

B. 当我们采用梯度下降法作为优化手段时,则会发现这种验证方法非常有效;然而,在采用更高级别的优化策略时(例如在fminunc中),其效果并不显著。

C. 使用梯度检查可以帮助验证反向传播的实现是否没有bug

当神经网络过度拟合训练数据时,采取适当措施来增大正则化系数λ是一个合理的选择。

第 45 题

以下哪项陈述是正确的?选择所有正确项

A. 假设参数θ₁为一个方阵(即其行数等于列数)。如果我们使用其转置矩阵θ₁ᵀ来替代θ₁,则这并不会影响网络计算的功能

B. 假设梯度下降训练一个神经网络是一个正确的反向传播实现,并且我们正在观察损失函数J(Θ)随迭代次数的变化情况。当我们绘制J(Θ)时发现其持续上升而非下降。这种现象的一个可能原因是学习率α过大。

C. 当我们采用基于学习率α的梯度下降算法时,在逻辑回归与线性回归模型中,损失函数J(Θ)属于典型的凸优化问题。因此选择较大的学习率可能导致算法收敛缓慢或不稳定。相比之下,在神经网络模型中,损失函数J(Θ)通常不具备严格的凸性。这使得即使在有限步内也无法保证完全收敛。

当使用梯度下降算法训练神经网络时, 一个有效的验证过程是观察损失函数曲线, 并持续确认损失值随迭代次数增加而不断减少.

第 46 题

为了训练一个学习算法并观察到在测试集上的误差显著较高,请绘制相应的学习曲线后,请查看下图以获取更多信息。该算法是否表现出高偏差、高方差或者两者皆无?

Image Name

A. 高偏差
B. 高方差
C. 两者都不

第 47 题

假设您已经实现了基于正则化的逻辑回归用于图像对象分类(即尚未完成图像识别)。然而,在测试阶段使用一组新的图片评估模型时发现其预测存在较大误差。尽管在训练集中模型表现优异

探索引入多项式特征

第 48 题

假设您开发了一个经过正则化处理的逻辑系统来预测顾客在电商平台上的购买行为。然而,在评估新客户的模型时显示出较大的预测误差。此外,在训练数据集上的效果相对不如预期。以下哪些做法可以改善?选出所有正确选项

A. 探索获取与应用其他类型的特征
B. 考虑引入多项式形式的特征
C. 评估使用少量关键特征求取效果的可能性
D. 调整正则化强度以提升模型泛化能力

第 49 题

以下哪项陈述是正确的?选出所有正确项

在进行模型训练时,请考虑采用正则化处理以防止过拟合问题。在选择正则化参数λ值时,请采用交叉验证方法找到使测试集误差最小化的λ值作为常用策略。

在进行一个正则化的线性回归模型时,在选择正则化参数λ时,请采用使测试集误差最小化的策略。

C. 假设你正在训练一个正则化线性回归模型,在选择正则化参数λ值时,请采用能够使训练集误差最小化的λ值。

D. 学习算法在训练集上的性能通常比在测试集上的性能要好。

第 50 题

以下哪项陈述是正确的?选出所有正确项

当我们在调优过程中完成算法训练后,在系统性地分析训练过程中的表现数据(如收敛速度、验证集误差等),我们可以清晰地识别出模型是否偏向于欠拟合(high bias)或过拟合(high variance)的状态。

当一个学习算法面临高度方差时,在测试误差方面可能会出现改善

C. 我们总是偏好于高方差的模型(而非高偏差的模型),因其能够更好地适应训练集。

D. 如果某个学习算法存在显著的偏差,则即使增加更多的训练实例也可能无法显著降低测试误差。

第 51 题

目前你在进行垃圾邮件分类系统的开发研究,并计划采用带正则化的逻辑回归算法作为分类模型。将‘垃圾邮件’归类为阳性样本(标记为y=1),将‘非垃圾邮件’视为阴性样本(标记为y=0)。经过训练后构建了一个分类器,在交叉验证过程中共有m=1000个样本数据被用于评估模型性能。预测结果与真实结果之间的对比情况可以通过以下图表直观展示。

复制代码
|Actual Class: 1|Actual Class: 0|
|---|---|
|Predicted Class: 0|15|

准确率Accuracy=\frac{TP + TN}{Total}
精确度Precision=\frac{TP}{TP + FP}
召回率Recall=\frac{TP}{TP + FN}
F1值=F1=\frac{2 \times 精确度 \times 召回率}{精准度 + 召回率}

分类器的召回是多少?

第 52 题

假设有一个规模宏大的数据集可用于训练某个学习算法。当这两个条件满足时,对大量数据进行训练可能带来良好的性能表现。这两个条件具体是什么?

特征x蕴含充足的细节以准确地推断y的值。(例如,在仅提供x的情况下进行检验时, 人类专家能否表现出高度的信心去估测y的值)

B. 我们训练一个具有少量参数的学习算法(因此不太可能过拟合)。

C. 我们训练具有大量参数的学习算法(能够学习/表示相当复杂的函数)。

D. 我们训练一个不使用正则化的模型。

第 53 题

假设我们已经训练了一个能够输出h_{\theta}(x)的逻辑回归分类器。
目前而言,在以下条件下进行分类:当其超过或等于给定阈值时会预测1;反之,在低于或等于阈值时会预测0;当前设定的阈值为0.5

假设您将阈值增加到0.9。以下哪项是正确的?选出所有正确项

A. 现在分类器的精度可能更低。

B. 分类器的准确度和召回率可能不变,但准确度较低。

C. 分类器的准确度和召回率可能不变,但精度较高。

D. 分类器现在可能具有较低的召回率。

假设您将阈值降低到0.3。以下哪项是正确的?选出所有正确项

A. 分类器现在可能具有更高的召回率。

B. 分类器的准确度和召回率可能不变,但精度较高。

C. 分类器现在可能具有更高的精度。

D. 分类器的准确度和召回率可能不变,但准确度较低。

第 54 题

假设您正在利用垃圾邮件分类器进行某种任务,在您的训练集中有N个电子メール样本。将这些电子メール分为两类:将垃圾电子メール标记为正例(y=1),而非垃圾电子メール则标记为反例(y=0)。在您的训练集中有99%的电子メール属于非垃圾类别而只有1%的是需要重点关注的垃ocl类别。下面哪些说法是正确的?请全部选出来

一个优秀的分类器应在交叉验证集上同时具备高的准确率(precision)和高的召回率(recall)。

B. 您始终将预测结果限定为正常邮件(即输出y=0),那么您的分类器在训练集上的准确度accuracy将显著提升至99%以上,并且在交叉验证集上表现出相似的性能水平。

C. 您始终将预测结果设定为正常邮件(输出y=0),这样您的分类器的准确度accuracy将接近100%.

如果始终将预测结果归类为非垃圾邮件(即输出y=0),则该分类器在训练集上的准确度将显著提升至99%;然而,在交叉验证集上的表现则会有所下降。这是因为模型可能过度拟合于训练数据。

当模型始终将输入数据标记为垃圾邮件类别时,在这种情况下

F. 如果总是预测非垃圾邮件(输出y=0),则分类器的召回率recall为0%。

G. 如果一个分类器总是将垃圾邮件标记为类别y=1(输出结果),那么该分类器将具备召回率达到最大值和精确率为最低水平的性能特征。

如果您的分类器在所有测试样本中始终将预测结果设为非垃圾邮件类别(即输出类别标记y=0),那么其分类器的准确度将稳定在99%的水平。

第 55 题

以下哪项陈述是正确的?选出所有正确项

A. 在开发学习算法的初期阶段之前, 投入了大量时间和精力来收集大量的数据, 是一项值得借鉴的做法.

B. 在数据分布不均衡的情况下(如正类样本数量多于反类样本时),其作为评估指标存在局限性;推荐结合使用精确率和召回率来计算F1值。

C. 训练完逻辑回归分类器后,必须使用0.5作为预测示例是正是负的阈值。

D. 使用一个非常大的训练集使得模型不太可能过度拟合训练数据。

E. 如果您的模型不适合训练集,那么获取更多数据可能会有帮助。

第 56 题

该支持向量机基于高斯内核模型识别出相应的分类边界。

Image Name

对于支持向量机而言,在当前情况下模型确实出现了欠拟合的问题。此时是否应考虑通过调整参数来改善表现?具体来说,您是否倾向于提高正则化参数C的值或是降低它?同样的情况也适用于对\sigma^2进行调节。

A. 降低C,增加σ2
B. 降低C,降低σ2
C. 增加C,增加σ2
D. 增加C,降低σ2

第 57 题

高斯核的公式是由similarity(x,l(1))=exp⁡(−||x−l(1)||22σ2)给出的。

下图显示了当σ2=1时,f1=similarity(x,l(1))的曲线图。

Image Name

当σ2=0.25时,下列哪个是f1的曲线图?

A.

Image Name

B.

Image Name

C.

Image Name

D.

Image Name

第 58 题

支持向量机计算其最小化损失函数 minθ CΣi=1m y(i) cost₁(θ^T x(i)) + (1 - y(i)) cost₀(θ^T x(i)) + Σj=1n θ_j²;其中损失模型 cost₀(z) 和 cost₁(z) 的曲线图如下:

Image Name

在目标函数中的一项表现为:C\sum_{i=1}^{m} y(i)\cdot \text{cost}_1(\theta^T x(i)) + (1 - y(i))\cdot \text{cost}_0(\theta^T x(i))。如果在给定的四个条件下有两个成立,则该项将消失。满足使该项消失的两个条件是什么?

A. 对于y(i)=1的每个例子,有θTx(i)≥1

B. 对于y(i)=0的每个例子,有θTx(i)≤−1

C. 对于y(i)=1的每个例子,有θTx(i)≥0

D. 对于y(i)=0的每个例子,有θTx(i)≤0

第 59 题

假设某数据集包含n=10个特征以及m=5000个示例。通过梯度下降算法对逻辑回归分类器进行训练后发现该模型在训练集中存在欠拟合现象,并且在评估时无论是训练数据还是交叉验证数据的表现均未达到预期水平。以下哪些改进措施可能有助于提升模型性能?请全部选择

A. 尝试使用具有大量隐藏单元的神经网络。

B. 减少训练集中的示例数。

C. 采用不同的优化策略,并且由于基于梯度下降的方法进行训练过程可能会导致模型陷入局部最小值。

D. 创建/添加新的多项式特征。

第 60 题

以下哪项陈述是正确的?选出所有正确项

当您采用支持向量机进行多类分类时,并选择"一对一"策略(即"一元N"模式),那么如果有K个类别,则需训练K−1个不同模型。

B. 若数据呈线性可分状态,则无论C参数取何值,在线性核支持向量机中始终会得到同一组参数θ(即θ的取值不受C的影响)。

C. 高斯核的最大值(即sim(x,l(1)))是1。

D. 在使用高斯核之前进行特征归一化是很重要的。

第 61 题

对于以下哪些任务,K-means聚类可能是一种合适的算法?选出所有正确项

基于一个存储着用户的各项数据的数据库系统,在后台自动实现对用户的分类管理功能,并将其分配至相应的细分群体中

B. 基于超市内大量商品的销售数据,在线识别出一组具有较高关联度的一组商品(例如经常被顾客一起购买),从而应将其摆放在同一货架上。

C. 根据历史天气记录,预测明天的降雨量

D. 给定超市中大量产品的销售数据,估计这些产品的未来销售额。

E. 给出一组来自许多不同新闻网站的新闻文章,找出所涉及的主要主题。

F. 基于许多电子邮件,确定它们是垃圾邮件还是非垃圾邮件。

G. 从网站上的用户使用模式,找出哪些不同的用户群体存在。

H. 根据历史天气记录,预测明天的天气是晴还是雨。

第 62 题

假设有三个簇中心分别为μ₁ = [12], μ₂ = [-30], μ₃ = [42]. 此外还有一个训练示例x^{(i)} = [-21]. 在完成集群分配过程后确定c^{(i)}的值会是怎样的?

A. c(i)=2
B. c(i)未被分配
C. c(i)=1
D. c(i)=3

第 63 题

K-means是一种迭代算法,在其内部循环中重复执行以下两个步骤。哪两个?

A. 移动簇中心,更新簇中心μk。

B. 分配簇,其中参数c(i)被更新。

C. 移动簇中心μk,将其设置为等于最近的训练示例c(i)

D. 在簇中心分配的过程中, 每个簇质心μi都会被分配给...其中, 通过设置c(i), 将每个簇质心μi映射至最近的训练样本x_i.

第 64 题

假设您有一个未标注的数据集{x(1),…,x(m)}。为了探索其潜在结构,在使用K-means算法时采用随机初始值策略时会遇到一个问题:即如何从这50组不同的随机数初始化中获得最优的聚类结果?这个问题的核心在于评估不同初始值对最终聚类结果的影响机制以及选择合适的优化方法以确保得到高质量的簇划分。

A. 唯一的方法是我们需要数据标签y(i)。

B. 对于每一个分类,计算1m∑i=1m||x(i)−μc(i)||2,并选择这个值最小的一个。

C. 答案模棱两可,没有好的选择方法。

D. 该算法倾向于选择最后一个(第50个)聚类,并因其具有更高的概率性而可能收敛至一个较为理想的结果。

第 65 题

以下哪项陈述是正确的?选出所有正确项

A. 对于K-means算法可能陷入局部最优解的情况, 一种有效的改进措施是通过采用多组不同的初始中心点来进行多次运行以降低效果的波动性, 这样能够显著提高算法的整体收敛效果.

B. 初始化K-均值的标准方法是将μ1=…=μk设置为等于零的向量。

C. 因为K-Means是一种无监督学习方法,并不容易过拟合于数据集的原因是其倾向于形成均值簇结构

D. 在某些数据集上,K值的确定性可能较高也可能较低,在这种情况下,
就连经过深入分析的数据专家也无法准确确定其最优取值。

E. 无论簇中心的初始化如何,K-均值都会给出相同的结果。

一种有效的初始化K-means策略是在训练数据集中选取K个不同的样本实例,并将这些样本实例作为初始质心的代表。

在K-means算法的每一轮计算中,目标函数J(c₁,…,c_m, μ₁,…,μ_k)(失真函数)不会上升,并且在大多数情况下会下降。

H. 一旦一个数据点被归类到一个特定的簇中心之后,它将不再被重新归类到其他不同的簇中心中。

第 66 题

考虑以下二维数据集:

Image Name

以下哪些图像对应的PCA可能会返回u(1)(第一特征向量/第一主成分)的值?选出所有正确的选项。

A.

Image Name

B.

Image Name

C.

Image Name

D.

Image Name

第 67 题

哪种科学的方法能够确定主成分数目(其中n表示输入数据的维度大小 mm表示输入示例的数量)?

A. 选择至少保留99%的方差的k的最小值

B. 选择k,使逼近误差1m∑i=1m||x(i)−xapprox(i)||2。

C. 选择至少保留1%的方差的k的最小值

D. 选择k为99%的n(即k=0.99∗n四舍五入至最接近的整数)。

第 68 题

如果有人向你解释说,在执行主成分分析的过程中他们采用了'95% of the variance is retained'的方法,请问还有什么说法与此具有相同的意思?

A. 这个系统的均方差达到了至少5%。
B. 这个系统的均方差不超过5%。
C. 这个系统的预测误差平方和不超过5%。
D. 这个系统的数据平方和不超过95%。

第 69 题

以下哪项陈述是正确的?选择所有正确项

A. 仅给出z(i)和Ureduce,就没有办法重建x(i)的任何合理的近似。

B. 即使所有输入特征高度接近同一尺度,在进行主成分分析前,我们应实施均值归一化处理(使得每个特征的平均值归零)。

C. PCA易受局部最优解的影响;尝试多次随机初始化可能会有所帮助。

D. 给定输入数据x属于实数空间Rn,在满足条件k≤n的情况下执行主成分分析(特别地,在使用主成分数量为k=n时进行分析会获得有意义的结果;然而,在使用超过n个主成分时无明显效果)

第 70 题

以下哪项是PCA的推荐应用?选择所有正确项

A. 在某种程度上替代了线性回归的方法。针对大部分应用场景而言,在结果上呈现出高度的一致性的主成分分析法与线性回归技术。

B. 数据压缩:减少数据的维数,从而减少占用的内存/磁盘空间。

C. 数据可视化:分析并识别二维数据,并以寻找多种绘图方式的方式进行处理(采用k值设定为2)。

D. 数据降维:降低输入数据x(i)的空间维度,并使这些维度则将被用于监督学习算法(例如,在应用主成分分析(PCA)后),以加快其运算速度。

Week 9 | 1 异常检测

第 71 题

对于下列哪一个问题,异常检测是一个合适的算法?

A. 给定一张脸的图像,确定它是否是某个特定名人的脸。

B. 给定信用卡交易的数据集,识别异常交易,将其标记为可能存在欺诈。

C. 基于信用卡交易记录的信息,在确定消费类别时会对每个交易实例进行分析(如日常开销、大宗购物和衣着费用等)。

D. 从大量的初级保健患者记录中,找出可能有异常健康状况的个人。

第 72 题

基于此假设,在您的系统中当p(x)低于阈值ϵ时判定异常行为发生在当p(x)低于阈值ϵ时。经评估,在交叉验证集上该模型出现了过高的误报率。为了减少误报数量,请提出优化建议。

A. 增大ϵ
B. 减小ϵ

第 73 题

在开发用于飞机发动机制造缺陷检测的系统时,在实现这一目标的过程中,默认使用概率密度函数的形式进行建模会非常有效。

在该模型中使用以下数学表达式进行描述:p(x)=∏_{j=1}^n p(x_j; μ_j, σ_j²)

其中两个关键特性分别为:一是振动强度(记为 x₁),二是产生的热量(记为 x₂)。

它们的取值范围都是 0 到 1 之间,并且且严格大于 0。

对于典型的‘正常’发动机运行状态而言,则预期其满足 x₁ ≈ x₂ 的关系式成立。

值得注意的是,在实际运行过程中可能存在一种反常情况:即使在不产生较多热量的情况下(即小幅度或较低水平的热能释放),发动机仍会出现剧烈振动现象(即大范围或显著高的振动强度)。这种反常情况可能出现在超出其常规参数范围内。

为了更好地识别这些异常类型的表现特征,请问您应如何构造相关指标?

A. x3=x12×x2
B. x3=x1x2
C. x3=x1+x2
D. x3=x1×x2

第 74 题

以下哪项是正确的?选择所有正确项

A. 如果没有无标签数据(同时所有数据都被标注为y=0的情况),那么我们依然能够估计p(x)的概率分布,但这种情况下对系统进行评估或合理地选择一个合适的值可能会更加困难。

B. 如果你有一个包含大量正样本和负样本的数据集,并且采用无监督学习方法进行建模的话,那么异常检测系统的性能可能会与有监督学习算法(如支持向量机)相媲美。

C. 如果您正在构建异常检测系统的框架,则不可以利用标记数据来提高系统的性能。

建议从异常样本中挑选那些具有极端数值的特征

第 75 题

请考虑一个一维的数据集合\{x(1),\dots,x(m)\},目标是识别该数据集中异常的观测值。为此第一步是绘制该数据集。

Image Name

假设将高斯分布参数μ1μ1和σ21σ12拟合到此数据集。对于μ1,σ12,可以得到下列哪个值?

A. μ1=−3,σ12=4
B. μ1=−6,σ12=4
C. μ1=−3,σ12=2
D. μ1=−6,σ12=4

该监狱人脸识别准入系统用于识别进入Correctional Institution的人员身份。请判断哪种学习方法最适合应用于这一场景:

A.回归问题

B.二分类问题

C.多分类问题

D.K-means 聚类问题

2.以下哪种技术对于减少数据集的维度会更好

A.删除缺少值太多的列

B.删除数据差异较大的列

C.删除不同数据趋势的列

D.都不是

3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?

A.频繁模式挖掘

B.分类和预测

C.数据预处理

D.数据流挖掘

4.下列不是 SVM 核函数的是( )

A.多项式核函数

B.逻辑核函数

C.径向基核函数

D.线性核函数

数据科学家可能同时采用多个算法(模型)来进行预测,并综合这些算法的输出来进行最终预测(即采用集成学习方法),以下关于集成学习的说法是否正确。

A.单个模型之间有高相关性

B.单个模型之间有低相关性

C.在集成学习中使用“平均权重”而不是“投票”会比较好

D.单个模型都是用的一个算法

6.‌ 在以下不同的场景中,使用的分析方法不正确的有()‎

A.基于过去一年商家经营状况和服务质量的相关数据,通过聚类分析方法识别出天猫店铺在各个核心品类下的等级归属情况

B. 基于商家过去几年的交易数据, 采用聚类算法来估计用户下个月可能的消费金额模型

C. 基于关联规则算法挖掘出已购买汽车座垫的客户群体特征后, 是否能够有效推送给相关客户进行产品推荐。

D. 基于用户近期浏览的商品数据, 用决策树算法判断淘宝买家的性别.

7.‍bootstrap 数据的含义是‏

A.有放回的从整体 M 中抽样 m 个特征

B.无放回的从整体 M 中抽样 m 个特征

C.有放回的从整体 N 中抽样 n 个样本

D.无放回的从整体 N 中抽样 n 个样本

8.在逻辑回归中,如果同时加入 L1 和 L2 范数,不会产生什么效果‌

A.以做特征选择,并在一定程度上防止过拟合

B.能解决维度灾难问题

C.能加快计算速度

D.可以获得更准确的结果

9.‌ 对于在原空间中线性不可分问题,支持向量机()。‏

A.在原空间中寻找非线性函数的划分数据

B.无法处理

C.在原空间中寻找线性函数划分数据

D.将数据映射到核空间中

10.‌ 回归问题和分类问题的区别是?

A.回归问题有标签,分类问题没有

B.回归问题输出值是离散的,分类问题输出值是连续的

C.回归问题输出值是连续的,分类问题输出值是离散的

D.回归问题与分类问题在输入属性值上要求不同

11.‌ 以下关于降维的说法不正确的是?‎

A.降维是将训练样本从高维空间转换到低维空间

B.降维不会对数据产生损伤

C.通过降维可以更有效地发掘有意义的数据结构

D.降维将有助于实现数据可视化

12.‌ 向量 x=[1,2,3,4,-9,0]的 L1 范数是多少?‌

A.1

B.19

C.6

D.

设X和Y均服从正态分布,则P(X<5,Y<0)即为(联合概率),其数值表示X<5且Y<0这两个事件同时发生的概率

A.先验概率

B.后验概率

C.联合概率

D.以上说法都不对

根据调查数据显示,在某大学中驾驶汽车的本科生占15%,而驾驶汽车的研究生占23%。其中研究生占该大学学生的20%,那么随机选择一名驾驶汽车的学生是研究生的概率是多少?

‎A.80%

B.16.6%

C.23%

D.27.71%

15.‏ 假设有 100 张照片,其中,猫的照片有 60 张,狗的照片是 40 张。

‏ 识别结果:TP=40,FN=20,FP=10,TN=30,则可以得到:( )。

A.Accuracy=0.8

B.Precision=0.8

C.Recall=0.8

D.以上都不对

16.以下关于训练集、验证集和测试集说法不正确的是( )。

‍A.测试集是纯粹是用于测试模型泛化能力

B. 训练集不仅用于模型的训练过程,并且被用来评估其效果表现

C.验证集用于调整模型参数

D.以上说法都不对

17.‏ 下列哪种方法可以用来缓解过拟合的产生:( )。‎

A.增加更多的特征

B.正则化

C.增加模型的复杂度

D.以上都是

18.‎ 假设有 6 个二维数据点:D={(2,3),(5,7),(9,6),(4,5),(6,4),(7,2)},第一次切分时候,切分线为( )。‍

A.x=5

B.x=6

C.y=5

D.y=6

19.‏ 两个向量的长度分别为 1 和 2,两者之间的夹角为 60 度,则以下选项错误的是( )。‎

A.余弦相似度为 0.5

B.余弦相似度为正

C.余弦相似度没法计算,因为没给出具体坐标值

D.余弦相似度的值与向量的长度无关,只和向量之间的夹角有关

20.‏LightGBM 与 XGBoost 相比,主要的优势不包括( )‌

A.更快的训练速度

B.更低的内存消耗

C.更好的准确率

D.采用二阶泰勒展开加快收敛

21.‏ 关于 BP 算法优缺点的说法错误的是 ( )。‌

A.BP 算法不能用于处理非线性分类问题

B.BP 算法训练时间较长

C.BP 算法容易陷入局部最小值

D.BP 算法训练时候可能由于权值调整过大使得激活函数达到饱和

  1. 神经网络算法偶尔会遇到过拟合的情况,在面对过拟合时,请问哪些应对措施更为有效?

A.为参数选取多组初始值,分别训练,再选取一组作为最优值

B.增大学习的步长

C.减少训练数据集中数据的数量

D.设置一个正则项减小模型的复杂度

  1. SVM 算法的最低时间复杂度为 O(n^2)。据此,请判断哪些规格的数据集不适于采用该算法?( )

A.大数据集

B.小数据集

C.中数据集

D.不受数据集大小的影响

24.‍ 一个正例(2,3),一个负例(0,-1),下面哪个是 SVM 超平面?( )

‎A.2x+y-4=0

B.2y+x-5=0

C.x+2y-3=0

D.无法计算

25.‌ 下列关于 Kmeans 聚类算法的说法错误的是( )。

A.对大数据集有较高的效率并且具有可伸缩性

B.是一种无监督学习方法

C.K 值无法自动获取,初始聚类中心随机选择

D.初始聚类中心的选择对聚类结果影响不大

  1. 将数据对象集划分为互不相交的子集,并使每个数据对象只属于其中一个子集,则该聚类方法称为( )。

A.层次聚类

B.划分聚类

C.非互斥聚类

D.密度聚类

27.‎ 以下关于 PCA 说法正确的是 ( )。‎

A.PCA 是一种监督学习算法

B.PCA 在转换后的第一个新坐标轴选择的是原始数据中方差最小的方向

C.PCA 转换后选择的第一个方向是最主要特征

D.PCA 不需要对数据进行归一化处理

28.‌ 关于 Apriori 和 FP-growth 算法说法正确的是( )。‌

A.Apriori 比 FP-growth 操作更麻烦

B.FP-growth 算法需要对项目进行配对,因此处理速度慢

C.FP-growth 只需要一次遍历数据,扫描效率高

D.FP-growth 算法在数据库较大时,不适宜共享内存

第29题某超市通过对销售记录数据分析后观察到,在购买啤酒的顾客中会有较大的比例也会采购尿布的情况出现。这种情况归类于哪种数据挖掘技术?( )

A.关联规则发现

B.聚类

C.分类

D.自然语言处理

30.‍ 置信度(confidence)是衡量兴趣度度量( )的指标。‎

A.简洁性

B.确定性

C.实用性

D.新颖性

2.多选(每题 2 分)

31.‎ 下面哪些是分类算法?

‌A. 根据肿瘤的体积、患者的年龄来判断良性或恶性?

B.根据用户的年龄、职业、存款数量来判断信用卡是否会违约?

C.身高 1.85m,体重 100kg 的男人穿什么尺码的 T 恤?

D.根据房屋大小、卫生间数量等特征预估房价

32.‎ 以下哪些是使用数据规范化(特征缩放)的原因?

‌A.它通过降低梯度下降的每次迭代的计算成本来加速梯度下降

B.它通过减少迭代次数来获得一个好的解,从而加快了梯度下降的速度

C.它不能防止梯度下降陷入局部最优

D.它防止矩阵不可逆(奇异/退化)

33.‎ 影响 KNN 算法效果的主要因素包括( )。

‎A.K 的值

B.距离度量方式

C.决策规则

D.最邻近数据的距离

34.‏ 支持向量机有哪些常用的核函数( )。

A.高斯核

B.拉普拉斯核

C.线性核

D.多项式核

35.‏ 以下关于支持向量机的说法正确的是 ( )。‏

A.SVM 适用于大规模数据集

B.SVM 分类思想就是将分类面之间的间隔最小化

C.SVM 方法简单,鲁棒性较好

D.SVM 分类面取决于支持向量

36.‌ 关于 BP 算法优点说法正确的是( )。

A.BP 算法能够自适应学习

B.BP 算法有很强的非线性映射能力

C.BP 算法反向传播采用链式法则,推导过程严谨

D.BP 算法泛化能力不强

37.‏ 下面关于支持向量机的描述正确的是( )。

‏A.是一种监督学习的方法

B.可用于多分类的问题

C.支持非线性的核函数

D.是一种生成模型

38.‎ 下面属于降维常用的技术的有:( )。

‌A.主成分分析

B.特征提取

C.奇异值分解

D.离散化

39.‌PCA 算法获取的超平面应具有哪些性质 ( )。

A.最近重构性

B.信息增益最大性

C.最大可分性

D.局部极小性

40.‎ 关于关联规则,正确的是:( )。

‌A.关联规则挖掘的算法主要有:Apriori 和 FP-Growth

B.一个项集满足最小支持度,我们称之为频繁项集

C.啤酒与尿布的故事是聚类分析的典型实例

D.支持度是衡量关联规则重要性的一个指标

3.判断(每题 1 分)

41.‏ 支持向量是那些最接近决策平面的数据点

‍A.正确

B.错误

42.‍ 相关变量的相关系数可以为零,对吗?

‏A.正确

B.错误

43.‌PCA 会选取信息量最少的方向进行投影。

‌A.正确

B.错误

在大多数机器学习项目中, data collection, data cleaning, and feature engineering占据了大部分时间;而modeling仅占总时间的一小部分.

A.正确

B.错误

45.‏ 随机梯度下降,每次迭代时候,使用一个样本。

‌A.正确

B.错误

46.‎ 朴素贝叶斯法的基本假设是条件独立性。

‌A.正确

B.错误

47.SMOTE 算法是用了上采样的方法。

‍A.正确

B.错误

48.L2 正则化得到的解更加稀疏。

A.正确

B.错误

49.‍ID3 算法只能用于处理离散分布的特征。

A.正确

B.错误

50.‏ 集成学习的数据不需要归一化或者标准化。

‎A.正确

B.错误

51.‎BP 算法“喜新厌旧”,在学习新样本后,会把旧样本逐渐遗忘。

‌A.正确

B.错误

52.逻辑回归分类的精度不够高,因此在业界很少用到这个算法

‍A.正确

B.错误

53.‌SMOTE 算法是用了上采样的方法。

‌A.正确

B.错误

54.‍100 万条数据划分训练集、验证集、测试集,数据可以这样划分:98%,1%,1% 。‌

A.正确

B.错误

K-means是一种执行划分式聚类任务的基于密度特性的聚类算法;其簇的数量由算法自动决定

A.正确

B.错误

56.朴素贝叶斯法的基本假设是条件独立性。

‏A.正确

B.错误

57.特征空间越大,过拟合的可能性越大。

‎A.正确

B.错误

58.‍ 两个向量的余弦相似度越接近 1,说明两者越相似。

‌A.正确

B.错误

  1. K-means是一种以密度为基础进行划分的聚类方法;其通过算法自动确定簇的数量。

A.正确

B.错误

  1. ID3算法的核心思想是基于信息增益来进行评估特征选择,在每一次分裂中都选取具有最大信息增益的特征进行分割。

A.正确

B.错误

全部评论 (0)

还没有任何评论哟~