Advertisement

机器学习期末复习

阅读量:

请问以下哪个选项不是属于知识发现过程的一部分?() A. 数据清理 B. 数据挖掘 C. 知识可视化表达 D. 数据测试

通过协同过滤分析用户的兴趣,在群体中识别出具有相似兴趣(偏好)的特定用户提供方,并结合这些用户的评价结果构建系统对该用户的偏好模型(倾向度),并将其推荐物精准化地推送给具有类似偏好的其他用户提供者)。

3.下面哪一项不属于常见的 attribute 类型?( )
A选项中的标称 attribute
B选项中的数值 attribute
C选项中的高维 attribute
D选项中的序数 attribute

4.以下哪个度量属于数据散度的描述? ( )
A、均值
B、中位数
C、标准差
D、众数

下面哪个指标不属于集中趋势指标的描述?( )

执行数据清理工作的同时完成整合与转换,并对所得结果进行缩减是哪种类型的数据挖掘操作?() A.模式分析环节 B.分类与预测阶段 C.预处理阶段 D.异常处理环节

聚类分析是数据挖掘中的一种核心技术,在本题中询问的是哪种算法不属于聚类算法?A选项为K-Means算法

D、EM

8.关于Anconda组件的说法中,下列描述错误的是()。
A、Anaconda Prompt是一种由Anaconda提供的命令行工具
B、Jupyter Notebook是一个支持Web界面的交互式计算平台,能够方便地编辑易于人们阅读的文字文档,并用于展示数据分析的过程
C、Spyder是一个基于Python语言开发的跨平台科学运算集成开发环境
D、Anaconda Navigator提供了以图形化界面管理工具包及其相关运行环境的能力,其中涉及的各种管理命令也可以通过该界面手动执行
Jupyter Notebook是一个支持Web界面的交互式计算平台,能够方便地编辑易于人们阅读的文字文档,并用于展示数据分析的过程

9.关于Anaconda的组件中,支持创建并展示数据分析文档的是( )。
A. Anaconda Navigator
B.Anaconda Prompt
C.Spyder
D.Jupyter Notebook
Jupyter Notebook能够完整呈现分析流程,并且能够将说明文字,代码片段以及图表数据统一在一个文件中完整呈现。

10.Matplotlib主要是用哪种语言编写的?( )
正确回答
A、Python
B、java
C、C++
D、C

下列选项中,在搭建好企业级的数据仓库的同时也能确保其质量的是( )。
A、数据采集
B、数据分析前的数据处理
C、分析阶段的数据整理
D、呈现过程中的信息展示

下面()属于基于Web的交互式计算平台?它可以方便地被用来展示数据分析流程。

13.下列选项中,不属于ndarray对象属性的是( )。
A、shape
B、dtype
C、ndim
D、map

请仔细阅读以下所示的代码片段:
导入numpy库并使用其arange函数生成从1开始到不超过10且步长为3的等差数列。运行该代码后得到的结果是什么?
A选项的结果数组为[1、4、7、10]
B选项给出的数组为[1、4、7]
C选项显示数组为[2,…]
D选项则为[3,…]

  1. 下列关于 ndarray 对象描述正确的有( )。
    A、该种数据结构能够支持存储多种数据类型的元素
    B、该 ndarray 对象要求所有存储的元素保持一致的数据类型
    C、该 ndarray 对象不具备广播操作的能力
    D、该 ndarray 对象无法执行矢量运算
    基于其核心特性可以看出,在这种数据结构中所有元素都必须遵循相同的数据类型

考察ndarray对象的各种属性时,请指出以下哪一项描述是错误的说法。

关于如何创建ndarray对象的问题,请判断以下描述中哪一项是错误的。
A. 可将list()函数用于生成一个ndarray对象
B. ones()函数可用于生成所有元素均为1的一维或高维数组
C. 生成ndarray对象可通过调用 array()
D. zeros() 函数可被用来生成所有元素均为0的一维或高维数组
list() 函数不可直接生成 ndarry 对象, 但可以通过将列表作为参数传递给 array()

18.下列关于ndarray对象索引的描述错误的是( )。
A、ndarray对象中的元素可以通过索引和切片访问或修改
B、花式索引是通过整数数组或列表指定位置并取值的过程
C、布尔索引使用一个布尔数组筛选数据返回对应位置的值
D、多维数组的索引与切片方式与列表一致
例如要获取二维数组中的某个数值可采用arr[x,y]的形式

在对数组进行统计计算时,请选择一种方法以找出或确定该数组的最大值。( ) A、max B、maximum C、min D、maximal

请阅读以下示例代码:
导入numpy库,并创建两个数组进行运算。
创建一个三维数组arr₁
创建一个二维数组arr₂
将两个数组相加得到结果矩阵result
打印结果矩阵的形状。
运行上述代码后,请问结果矩阵的结果形状是什么?
选项如下:
A、(3,\ 2)
B、(\texttt{None},\ \texttt{None})
C、(\texttt{None},\ \texttt{None})
D、(\texttt{None},\ \texttt{None})

  1. 下列关于NumPy数组运算描述错误的是( )。
    A、在NumPy中,在两个大小相等的数组之间进行任何计算都会对每个元素分别进行操作
    B、广播机制允许两个形状不同的数组在某些操作中相互作用
    C、当一个标量参与矩阵运算时,在结果矩阵中会生成一个新的矩阵(其行数和列数与原矩阵相同),其中每一个元素都是通过将该标量与原矩阵中的对应元素执行加减乘除等操作得到的
    D、虽然标量可以参与向量或矩阵的基本算术运算

22.请阅读下列一段示例程序:
arr2d = np.array([[11, 20, 5],[21, 15, 26],[17, 8, 19]])
arr2d[0:2, 0:2]
运行上述程序,它最终执行的结果为( )。
A、array([[11, 20],[21, 15]])
B、array([11, 20])
C、array([21, 15])
D、array([11, 21])

23.请阅读下列一段程序:
arr = np.arange(12).reshape(3, 4)
arr.shape
运行上述程序,它最终执行的结果为( )。
A、3
B、4
C、(3, 4)
D、(1, 2)

下面是一段使用NumPy生成的二维数组代码,请仔细阅读以下内容并回答问题:

已知如下是一个二维数组:
arr2d = np.array([[1, 2, 3],[4, 5, 6],[7, 8, 9]])
若要获取元素5,则可以选择()来实现。
选项A: arr2d[1,1]
选项B: arr2d[1]
选项C: arr2d[2]
选项D: arr2d[1,0]

26.请看如下代码:
import numpy as np
arr = np.array([[6, 2, 7], [3, 6, 2], [4, 3, 2]]
arr.sort()
arr
对代码中的NumPy数组执行sort()方法结果正确的是( )。
A、[[2 6 7] [2 3 6]]
B、[[2 6 7] [6 3 2]]
C、[[7 6 2] [6 3 2]]
D、[[7 6 2] [2 3 6]]

在创建ndarray对象的过程中,请问您需要设置什么参数吗?

如何创建一个形状为3×4的数组?请判断以下哪个选项是正确的?

在NumPy通用函数库中提供的一种计算元素级最大值的操作是( )。 A、 \texttt{np.max} B、 \texttt{np.maximum} C、 \texttt{np.min} D、 \texttt{np.maximal}

30.下列函数中,用于计算整数的绝对值的是( )。
A、square()
B、sqrt()
C、abs()
D、floor()

关于Series结构,请判断以下描述哪些是正确的( )。
A. 该对象类似于二维数组的一种数据结构
B. 该对象由一组数据及其相关联的索引组成
C. 该对象仅支持整数型和字符串型的数据存储
D. 该对象默认采用从1开始的索引序列

请查看以下一段代码:
import pandas as pd
ser_obj = pd.Series(range(1,6), index=[5,3,1,3,2])
print(ser_obj)
运行这段代码后,请选择正确的输出结果:
A、当a显示3.0值时对应的索引为d的位置;其余情况为空
B、当a显示3.0值时对应的索引为b的位置;其余情况为空
C、运行过程中出现错误
D、索引c依次显示1和2

33.下列关于Pandas库的说法中正确的是( )。
A、Pandas仅提供两种主要的数据存储结构
B、Pandas不支持以文本形式存储数据
C、Pandas是在NumPy库的基础上开发而成的一个新程序库
D、Pandas中的Series与DataFrame能够解决绝大多数的数据分析问题
除了教材中所讲述的两大类数据结构外,Pandas还提供了一种新的数据存储方式——Panel。

  1. 关于Pandas中数据的排序操作以下描述正确的是()。
    A. 既可以按照行号对数据进行排序也可以根据列号对数据进行排序
    B. sort_index()函数用于根据字段值对数据进行升序排列
    C. sort_values()函数用于根据行号对数据进行排列
    D. sort_index()函数在默认设置下采用降序方式排列

Pandas在执行算术运算时,在未对齐的位置会使用(补足)进行填充。

在下面四个选项中,请判断以下哪个无法生成Series对象?

以下四个选项中

37.关于Pandas的数据读写说法中下列描述错误的是()。
A、read_csv函数可以解析所有文本格式的数据
B、read_sql方法能够获取数据库内的信息
C、to_csv方法可将组织良好的数据输出为csv格式
D、to_excel函数可输出整理后的数据至Excel表格中

38.下列关于 DataFrame 的说法正确的是( )。
A、该对象的结构由索引与数据构成
B、该对象的行索引位于右侧边缘
C、构建该对象时需指定索引信息
D、各列的数据类型必须一致

39.请阅读下面一段程序
import pandas as pd
ser_obj = pd.Series(range(1, 6), index=[5, 3, 0,4, 2])
print(ser_obj.sort_index())
执行上述程序后,最终输出的结果是( )。
A、5 13 20 34 42 5
B、0 32 53 24 45 1
C、5 14 43 22 50 3
D、2 54 40 33 25 1

在以下选项中,请问哪一个是用于删除缺失值的方法?A选项是isnull() B选项是delete() C选项是dropna() D选项是fillna()。其中isnull方法被用来检测是否存在缺失值,在返回结果中有True的情况下,则表示数据存在重复;而fillna方法则被用来填充缺失的数据。

41.对于异常值的相关说法,请判断以下哪一选项是错误的?()
A.当某个数值明显偏离其他观测数据时,则称其为该组数据中的离群点
B.依据3σ原则能够识别出一组数据中的离群点
C.借助于Pandas库中的箱线图工具能够直观识别出离群点
D.对于发现的离群点可以通过替代方法进行处理
需要注意的是,并非所有看起来不正常的观测数据都代表输入错误。因此,在实际分析中通常会根据具体情况选择删除或保留这些离群点。

下列关于缺失值检测的说法中,正确的是()。
A. pandas库中的null()和notnull()函数可用于检测缺失值
B. 通过dropna()方法可以删除数据中的行或列中的缺失观测
C. fillna参数仅允许输入数值类型的数据用于填充缺失值
D. pandas库中的interpolate模块包含了多种插值方法

在以下选项中,请判断关于fillna()方法哪一项描述是正确的。
A. 仅能替代NaN数据
B. 仅支持向前填充方式
C. 默认最大可填入的数量为1
D. 能够替代NaN与None的数据

44.在以下关于drop_duplicates()方法的描述中,请指出错误的一项:
A. 仅适用于单一特征的数据去重
B. 仅在Series和DataFrame对象上起作用
C. 默认情况下会保留第一个被去重的数据
D. 此方法不影响原始数据的排列顺序

关于数据重塑的说法中,请判断以下哪个选项存在错误描述( )。
A、通过重塑操作可以使原始的二维 DataFrame 转换为一维的 Series 对象
B、调用 stack() 方法能够实现列索引层级向行索引层级的提升
C、应用 stack() 方法于一个 DataFrame 对象后所得的结果必然是一个 Series 类型的数据结构
D、unstack() 方法的作用在于将原本位于行轴上的索引层级提升至列轴上
若某个 DataFrame 具有层次化索引结构,则执行 stack() 操作后会得到一个新的 DataFrame 对象

在以下选项中,请判断对dropna()方法的描述正确的是:

请仔细阅读以下程序代码,并判断运行该代码后得到的输出结果是什么?

关于哑变量的说法中,下列选项描述错误的是( )。
A. 哑变量是一种人为构造的变量
B. 哑变量在转换成指标矩阵后,其值通常为0或1
C. 通过Pandas库中的get_dummies()函数能够实现对类别数据的哑编码处理
D. 将哑变量用于建模分析未必能带来实质的帮助

在数据分析过程中进行数据清洗的主要目标是显著提升数据质量,在实际应用中通常会根据具体情况选择性地处理异常值而不一定非要将其全部移除。为了实现去除重复记录的目的可以通过调用drop_duplicates()方法来完成这一操作。通过concat()函数可以在一个或多个指定键的基础上将多个DataFrame进行整合,并该函数能够沿着指定的轴线方向将多个对象进行叠加处理

关于预处理的说法中,请判断以下选项描述有误的是( )。
A. 通过concat()函数可以在同一轴上将多个对象串联起来
B. 利用merge()函数可以在一个或多个键的基础上将不同的DataFrame连接起来
C. rename()方法允许对数据框的索引执行重新命名操作
D. 通过unstack()方法可以在数据框中实现行索引向列索引转换

下列问题询问沿轴方向叠加Pandas对象的功能是什么,请选择正确的选项:下面列出了一些功能,请选择其中一个进行识别。
A选项提供了一个名为concat()的功能;
B选项提供了一个名为join()的功能;
C选项提供了一个名为merge()的功能;
D选项提供了一个名为combine_first()的功能。

不属于该领域的有哪些?选项A属于问答系统;选项B涉及信息获取;选项C关注病理分析;而D则涉及实时翻译。

以下哪个步骤涉及原始数据的变换以及变量相关性和标准化等任务( )

  1. 数据预处理在机器学习中扮演着关键角色,以下哪一说法是正确的?
    A、影响机器学习结果质量的关键因素是数据预处理的效果
    B、神经网络的训练过程对其受到的数据噪声并不敏感
    C、遇到有问题的数据时应采取更为谨慎的态度
    D、完成数据预处理任务所需的时间投入相对较少

55.涉及机器学习工程师的以下哪些说法是正确的?

移动运营商根据客户需求进行细分,并在套餐和服务营销中涉及哪些机器学习方法?以下哪种技术可用于实现这一目标?

以下下列哪一个步骤不属于机器学习所需进行的预处理工作( )。

58.以下有关机器学习理解不正确的是 ( )。
A、通过大量操作数据挖掘潜在信息
B、利用海量业务数据提炼新知来辅助决策的过程
C、机器学习所得结果未必都能辅助决策
D、需依赖统计学或相关机器学习算法来实现目标

59.通信服务提供商对客户流失行为进行预测时,最常用的方法是什么?
A.简单线性回归模型
B.关联分析法用于评估变量之间的关系
C.聚类分析技术帮助识别客户群体特征
D.人工神经网络技术则通过复杂的计算模型模拟人类的学习过程

  1. 电影的投资金额与电影的收益之间可以用一个一元线性回归方程来进行描述,请问以下哪一项是正确的?
    A选项:增加的投资会导致收益减少
    B选项:较少的投资将带来较高的收益
    C选项:增加的投资会带来更高的收益
    D选项:电影的投资与收益之间存在不确定的关系

61.特征工程不包括( )。
A、特征构建
B、特征合并
C、特征选择
D、特征提取

为了探究营销投入与销售收入之间的关系,请问应该采用哪一种数据分析技术? A项是关联分析 B项为回归分析 C项是聚类方法 D项为推荐算法

63.下面哪个回归分析的说法是正确的( )。
A、研究一个变量与其他一个(或几个)变量之间的相关关系的统计方法。
B、在回归分析中,并不需要使用样本数据进行训练阶段。
C、无法直接预测那些非数据型属性的类别。
D、通常情况下,非线性回归模型需要将其转换为线性形式以便更容易地求解其参数

在分析非线性回归问题时,以下选项中哪一项是错误的说法()

  1. 关于回归模型的系数,以下说法错误的是哪个( )。
    A、一元线性回归模型的系数可以使用最小二乘法求得
    B、多元回归模型中的各参数可通过梯度下降法确定
    C、一元线性回归模型中各参数值及其符号可反映各自变量对因变量的影响程度和方向
    D、进行回归分析旨在通过建立方程来刻画样本输入与输出之间的关系,并使其具有良好的拟合效果

下面关于主成分分析(PCA)的描述中错误的是( )。
A、依次提取一组相互正交的方向向量
B、原始数据中方差最大的方向向量是第一个坐标轴
C、主要通过特征值分解方法对协方差矩阵进行处理
D、奇异值分解主要用于处理不同维度的数据

下面关于奇异值分解(SVD)的描述中错误的是 ( )。
A、奇异值分解本质上就是将一个线性变换可以被分解为两个线性变换
B、奇异值通常反映矩阵中蕴含的重要信息,并且其重要性与大小呈强相关
C、SVD是一种对主成分分析(PCA)进行改进的方法,在计算成本方面更为高效,并且两者的共同目标都是实现降维效果
D、除了在数据压缩方面有应用外,在图像去噪等其他领域也有广泛的应用

68.下面有关线性判别分析错误的说法是哪个( )。
A、 通过线性变换处理原始数据,尽可能地将不同类别的样本分开
B、 线性判别分析中线性变换可以导致同类样本之间的方差增大
C、 通过线性变换,不同类别间的样本距离得以扩大
D、 显著地提升了不同类样本的可区分度

69.以下有关可视化认识错误的是哪个( )。
A、 可视化主要是将原始数据以图形的方式呈现出来的一种方法
B、 数据可视化可被用作一种预处理手段,在此过程中能够识别出异常数据(噪声)
C、 可视化属于数据分析的重要手段之一,在此过程中通过图表揭示隐藏的数据模式
D、 采用数据可视化的手段有助于数据分析人员更好地理解和发现其背后的规律

在关于数据可视化原理的论述中,哪一项描述是错误的?

71.Anconda是完全免费的。(√)

72.Jupyter Notebook可以将文件保存为ipynb格式。(√)

Anconda无法在Python 2.x版本上运行。(√)
Anconda兼容Python 2.6、2.7以及3.4和3.5等版本,并且允许灵活切换。

  1. Seaborn是一个依赖于Matplotlib的Python库,在数据可视化方面提供了丰富的高级功能模块。(√)

75.Python是一门胶水语言,可以轻松地操作其它语言编写的库。(√)

76.使用pip命令也可以查看Anconda安装的包。(√)

77.Jupyter Notebook的优势在于支持复现整个分析流程,并以单一文件形式呈现说明文字、代码、图表、公式及结论等关键要素(√)。

一旦当前系统的Anconda被配置好了,则Jupyter Notebook就会自动自带。

79.如果要卸载指定环境中的包,则直接使用remove命令移除即可。(√)

80.Jupyter Notebook可以使用命令行方式打开。(√)

81.Numpy是Python开源的数值计算扩展工具。(√)

Pandas是一个建立在NumPy基础之上的数据分析库;它是为了满足数据分析需求而开发/设计的一个高效工具。(√)

83.Jupyter Notebook可以使用Markdown语法(√)

84.使用Anconda进行开发,可以有效的解决包配置与包冲突的问题。(√)

85.conda广泛应用于Windows、Mac OS X以及Linux等主流操作系统上的开源软件包管理工具与环境配置系统。(√)

只有在两个数组的形状一致时才能进行算术运算。(×)
当且仅当某个维度长度相同或其中一个数组为标量或一维时可通过广播机制完成运算。

在Python环境中处理ndarray对象时,其数据类型可通过type( )函数来获取,并可利用该函数来实现数据类型的转换. (×) 在Python中对ndarray对象的数据类型使用astype( )方法来进行转换.

88.数组使用切片和索引的方式与列表完全一样。(×)

89.通过zeros()函数创建的数组中元素值都是0。(√)

90.ndarray对象中存储元素的类型必须是相同的。(√)

91.如果希望创建一个数组,则只能用array()函数实现。(×)

92.NumPy的数组排序默认是从小到大。(√)

93.通用函数会对数组中的每一个元素都进行操作。(×)

94.大小相等的数组之间的任何算术运算都会将运算应用到元素级。(√)

95.sort()方法可以对任何轴上的数据进行排序(√)

96.NumPy支持比Python更多的数据类型。(√)

假设我们有一个由三行三列组成的ndarray数组。如果希望获得位于第三行第二列的数据元素,则可以通过访问该位置上的元素来实现。(×) 该二维数组中的索引起始位置为零点。

98.NumPy的random模块比Python的random模块功能更多。(√)

99.NumPy数组不需要循环遍历,即可对每个元素执行批量的算术运算操作。(√)

100.创建数组时可以不指定数据的类型。(√)

101.在DataFrame中每列的数据都可以看做是一个Series对象。(√)

102.DataFrame的结构是由索引和数据组成的。(√)

103.Series可以保存任何数据类型。(√)

该程序能够捕获网页中的全部信息。
此功能模块仅限于捕获网页中的 table 标签相关的信息。

105.层次化索引可以交换分层顺序。(√)

Pandas中的索引对象具有可变性的。(×)
pandas中的索引对象不可变

107.Pandas既可以按照索引排序也可以按照数据排序。(√)

108.在操作DataFrame对象时,可以通过指定索引名的方式获取数据。(√)

109.Series对象可以具有多层索引结构。(×)

110.Series是一个类似于一维数组的对象。(√)

包括Series与DataFrames在内都具备切片操作的能力。(√)
Pandas仅为两种数据结构提供支持。(×)
Pandas包含多种类型的数据结构。

在填空题编号为113的情况下,默认情况下该函数用于填补缺失值的能力主要体现在其对Series类型的适用性上;然而,在面对DataFrames时,默认情况下该函数并未提供类似的填补功能。

114.join()方法可以使用左连接和右连接两种方式连接数据。(√)

带有多级索引的DataFrame对象经过stack()操作后会变为一个Series对象。(×)

116.在箱形图中超出上界和下界的值称为异常值。(√)

117.使用concat()函数合并数据时,可以通过左连接和右连接这两种方式连接。(×)

118.drop_duplicated()方法可以删除重复值。(×)

119.通过merge()函数合并数据时可以指定多个键。(√)

120.dropna()方法可以删除数据中所有的缺失值。(√)

121.使用merge()函数进行数据合并时,不需要指定合并键。(×)

122.rename()方法可以重命名索引名。(√)

123.缺失数据是人为有意造成的。(×)

在人工智能领域中,机器学习处于核心地位;而深度学习则作为其中的重要技术手段存在。(√)

125.泡泡图和散点图都可以表示三维数据之间的关系。(×)

Matplotlib 是一个用于在 Python 中生成数组的三维图形库。(×) Matplotlib 是一个用于在 Python 中生成数组的二维图形库。

127.下列属于有监督算法的是( )
A、决策树
B、K-均值
C、贝叶斯网路
D、SVM

涉及机器学习中的原始数据的问题可能存在( )。
A错误值
B重复
C异常值
D不完整

129.下列哪些分析需要机器学习( )。
A、分析移动运营商用户未来使用的网络流量情况
B、考察不同移动运营商用户对漫游服务的使用量
C、识别移动运营商用户对某类套餐的潜在客户
D、评估移动运营商用户的短信服务数量

  1. 下列关于PCA和LDA的描述正确的是( )。
    A、PCA和LDA都可以用于对高维数据进行降维
    B、PCA能够实现对不同类别的数据进行区分
    C、LDA能够有效地区分不同类别之间的差异
    D、PCA通常会选择样本点分布较广的方向进行投影

131.以下关于决策树分类方法正确的说法是( )
A.该方法无法识别对目标属性具有显著影响的因素
B.该技术有助于识别数据集中的关键特征
C.通过该方法能够区分出具有相似特性的样本
D.该模型的风险随结构复杂程度增加而上升

132.涉及决策树的观点中存在错误的是哪一个( )
A.可以转化为决策规则
B.能够对新样本进行分类与预测作用
C.决策树的深度并非越深越好
D.其算法与神经网络的根本原理存在差异

  1. 下列关于k-means说法正确的是( )
    A. 能够识别样本属性的权重
    B. 适用于具有规律分布的数据集
    C. 能够处理不同特征的数据集
    D. 初始选择不影响最终结果

134.有标签学习和无标签学习的主要区别在于( )
A.是否需要人工干预的过程
B.是否需要人工进行标注的工作
C.是否需要对结果进行解读的过程
D.参数设置是否由人工完成的过程

135.关于集成学习算法的说法正确的是( )
A.多线程并行计算架构
B.单线程顺序处理架构
C.新型数据挖掘技术类
D.综合现有技术类

下列关于聚类分析中的度量标准——轮廓系数的相关描述中存在不准确之处的是( )。
A. 最高值为1
B. 一个簇整体而言的轮廓系数越大,则表明其聚类效果越佳
C. 该指标不会出现负值
D. 较为紧密的数据点群其整体轮廓系数更大

137.下列关于基于层次的聚类方法的描述不正确的是( )
A.该过程将层次聚类划分为两大类方法:自顶向下与自底向上
B.持续进行聚类操作最终将所有样品整合为单一类别
C.自底向上的聚类方法属于分裂型聚类方法
D.无论采用何种计算两类间距离的方式,在最终步骤总是将具有最小距离的两个簇进行合并

K-Means算法中的初始中心点( )
A.不受限制地设定
B.必须位于每个簇真实中心附近的特定区域
C.必须保持足够的分散程度
D.对算法收敛产生直接影响

139.以下关于神经网络的描述正确的说法是( )
A.神经网络对于训练数据中的噪声具有一定的鲁棒性,因此可以容忍一定程度的数据质量问题
B.无法判断输入属性的相对重要性
C.构建神经网络模型通常需要耗费大量时间
D.仅适用于分类任务

在神经网络模型中,设定每个神经元的权重参数与偏置参数被视为拟合训练数据集的目标,最有效的策略是什么( )

其本质特征是仅适用于低维数据

  1. 线性支持向量机(SVM)与一般线性分类器的主要区别在于( )
    A. 是否进行了特征空间转换
    B. 是否追求最大间隔
    C. 是否能够处理线性不可分数据
    D. 训练误差通常较小

143.支持向量(support vectors)指的是( )
A.从原始数据中选取出来的代表性样本点
B.影响分类面位置的数据样本
C.刚好落在分类面上的样本点
D.能够准确划分到类别中的样本点

对于图像识别任务(例如识别照片中的猫),(C.卷积神经网络)更适合解决这类问题。

145.关于推荐算法的应用背景,正确的说法是( )

147.OLAP技术的核心是:( )
A. 在线性
B. 对用户的快速响应
C. 互操作性
D. 多维分析

148.pandas中,Series使用切片查询代码如下:
data = [1,2,3,4,5]
res = pd.Series(data,index=["a","b","c","d","e"])
print(res[3])
输出结果为:( )
A.4
B. 3
C. c
D. d

基于协同的分析方法旨在解决该类问题包括

假设采用全部特征后可获得100%的准确率,在测试集上的准确率仅为70%,这种情况表明( )

在使用Python第三方库sklearn创建线性模型实例linear_model时,则linear_model.coef中的属性系数表示( )
A. sigmoid函数
B. 激活函数
C. 模型中的参数
D. 以上都不是

152.以下对k-means聚类算法解释正确的是( )
A. 具有能力自动识别各类的数量,并随机地选择初始数据点作为中心
B. 能够自主判断不同类别间的距离关系,并非立即从数据集中随机选取初始中心
C. 无法自行确定类别数目却会立即选择中心值进行计算
D. 不具备自主分类的能力,并非立即从数据集中随机选取初始中心

  1. 推荐系统会根据客户的需求自动向其推荐商品;通过自动化的方式完成对客户的个性化商品选择,并以满足客户对不同产品的个性化需求为目标;该系统会基于()进行推选,并预测客户未来可能的购物行为。
    A. 客户的朋友
    B. 客户的信息数据
    C. 客户的兴趣偏好
    D. 顾客的历史浏览记录

用于发现关联规则的方法一般遵循以下几个步骤:首先进行数据整合与预处理工作;其次设定最低支持阈值和( );之后借助数据分析工具实现关联规则挖掘功能;最后通过可视化展示、深入分析以及评估验证关联规则的效果。

下列何者不属于常用自然语言处理技术:( )
A. 词条化
B. 词性标注
C. 句法分析
D. 交叉验证

156.Pandas处理缺失值的函数有?( )
A、fillna()
B、fit()
C、predict()
D、iloc()

157.下图是哪一种算法表示( )

A.K-近邻算法
B.贝叶斯
C.一元线性回归
D.多项式回归

158.常见的分类算法不包括( )
A.线性回归
B.逻辑回归
C.贝叶斯算法
D.K-近邻算法

159.线性回归能完成的任务是( )
A.预测离散值
B.预测连续值
C.分类
D.聚类

为了帮助顾客根据其消费习惯,以便根据其消费习惯有针对性地推荐相关服务,属于什么问题?( )

关于欠拟合(under-fitting),下面哪个说法是正确的?( )
A. 模型在训练集上的表现较差,在测试集上的表现较好
B. 模型在训练集上表现良好,在测试集上的泛化能力较弱
C. 模型在两个数据集上的表现均不理想
D. 模型在训练过程中的表现稳定,在面对新数据时仍有不足

即两个簇之间的接近程度被定义为其所属不同簇内任意两点之间的最短距离。它属于哪一种凝聚层次聚类方法?

163.在以下不同的场景中,使用的分析方法不正确的有( )
A.基于商家最近一年经营及服务数据,识别天猫商家在其所属的主营类目下所处的商家层级
B.基于商家近几年成交数据,推导出用户未来一个月可能的消费金额模型
C.通过关联规则算法分析发现购买汽车坐垫的买家,评估其是否适合推荐汽车脚垫
D.基于用户最近购买的商品信息,利用决策树算法判别淘宝买家可能是男还是女

164.设X={1,2,3}是频繁项集,则可由X产生( )个关联规则。
A.4
B.5
C.6
D.7

165.交叉验证如果设置K=5,会训练几次?( )
A.1
B.3
C.5
D.6

为了高效处理大量数据集并缩短训练时间, 我们可以选择以下哪种方法来优化决策树模型? A.提升模型复杂度 B.提高学习速率(learning rate) C.降低模型复杂度 D.缩减模型规模

以下不包括影响聚类算法结果的关键因素有( )
A. 已标注类别数据的质量
B. 分类标准
C. 特征提取
D. 模式间相似性评估

168.用于图像分析的常见技术不属于以下哪一项?
A. 图像转换技术
B. 图像编码与压缩技术
C. 图像增强与修复技术
D. 图像数据获取过程

一般情况下,在(样本数量较多但代表性较差)的情况下效果较好?

下列代码的功能如下所述:
代码首先导入高斯朴素贝叶斯模块,并初始化了一个高斯朴素贝叶斯模型实例;接着通过拟合函数对该实例进行了数据集上的建模;随后使用该已训练好的模型对数据集进行了推断运算以获得最终结果;最后通过评估函数对模型性能进行了测量与验证。
A选项描述的是创建并完成该高斯朴素贝叶斯模型的学习过程;
B选项则指出了该方法用于执行基于该算法的预测运算;
C选项涵盖了从构建到学习再到推断的整体流程;
而D选项不仅包括了上述内容还包含了评估阶段的具体操作步骤。

171.决策树中不包含以下哪种节点?( )
A. 根节点
B. 内部节点
C. 外部节点
D. 叶节点

172.通过集成多个分类器的预测以提升分类准确率的技术被称为( )

以下的说法哪些是正确的?
1 如果一个机器学习模型具有高的准确率,则可以认为它是有效的分类器。
2 当提高模型复杂度时,测试错误率通常会增加。
3 当提高模型复杂度时,训练错误率也会随之上升。
A. 1;B. 2;C. 3;D. 1和3

174.以下场景中属于机器学习的是?
A. 通过人工智能系统对地震活动进行检测
B. 电脑按照生物启发算法工作
C. 电脑被用来执行计算任务
D. 该系统具备识别不同阶段西瓜图片的能力,并使机器能够鉴别熟瓜

对比之下,在机器学习领域中的程序与其基于传统计算机架构的设计存在显著差异。以下哪项描述是错误的? A. 这两种类型都属于计算机程序 B. 它们的输出结果存在差异 C. 它们的输出结果完全一致 D. 通过经验总结和问题处理的传统程序在效果上表现得更好

以下哪一选项能够完成加载scikit-learn模块中的iris数据集
A. iris = datasets.read_iris()
B. iris = datasets.load_iris()
C. iris = datasets.iris()
D. iris = datasets.load.iris()

177.该段代码 实现的功能是:>>导入库中的train_test_split函数;>>将输入的数据集划分为训练集和测试集,并分配标签;选项:A. 读取数据集;B. 将数据集分成训练集和测试集;C. 分组样本;D. 排除部分样本。

178.进行机器学习训练过程使用的接口API是:
A. fit()
B. predict()
C. learn()
D. train()

179.属于分类模型评测指标的是:
A. MSE
B. AUC
C. MAE
D. RMSE

全部评论 (0)

还没有任何评论哟~