Advertisement

数据挖掘期末复习

阅读量:

选项D的目标在于将数据的取值范围限定得更加狭窄,在满足数据挖掘需求的同时仍能产出与原始数据一致的分析结果

A.数据清洗 B.数据集成 C.数据变换 D.数据归约

2、某超市通过对销售记录数据进行分析后发现,在购买啤酒的顾客中有较高的概率也会购买尿布件这种情况属于数据分析中的哪一类问题?( A )

A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理

属于哪一个阶段的任务(C)

A. 频繁模式挖掘 B. 分类和预测 C. 预处理 D.可视化

在不明确数据类别的情况下,在不知晓数据标签时, 采用何种技术使同类数据与其他类别数据得以区分?( B )

A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链

构建一个预测系统, 利用该模型根据已知的数据推断未知变量所属的任务类型.( C )

A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则

7、下面哪种不属于数据预处理的方法? ( D )

A.特征选择 B.离散化 C.数据集成 D.估计遗漏值

假定有...记录组已按顺序排列如下:...采用等频分箱法将它们划分为四个箱子,则数值...属于哪一箱?(B)

A.第一个 B.第二个 C.第三个 D.第四个

9、假设属性 income 的最大最小值分别为 12,  万元及  万元。采用最大最小化方法将该特征的数据标准化至  至  的比例区间内。对于收入 attribute income 的原始数值  万元,在经过归一化处理后得到的结果为 (D)

A.0.821 B.1.224 C.1.458 D.0.716

应用PCA主成分分析算法对多维数据进行降维度数至3维,并指定n_components参数为3

A.0 B.1 C.3 D.6

给定下列频繁出现的3-项集组成的集合:{1,…}, {…}, … ,其中假定数据集中仅包含5个不同的项;采用合并策略生成;由候选生成过程无法获得任何包含(C)类别中的4-项集

A.1,2,3,4 B.1,2,3,5 C.1,2,4,5 D.1,3,4,5

12、以下哪些算法是分类算法 ( B )

A.DBSCAN B.C4.5 C.K-Mean D.EM

13、可用作数据挖掘分析中的关联规则算法有( C )。

A. 决策树、对数回归、关联模式 B. K均值法、SOM神经网络

C. Apriori算法、FP-Tree算法 D. RBF神经网络、K均值法、决策树

14、用于分类应用的主要算法有: ( D )

A.Apriori算法、HotSpot算法 B.RBF神经网络、K均值法、决策树

C.K均值法、SOM神经网络 D.决策树、BP神经网络、贝叶斯

为了将数据对象集划分为互不相交的集合,确保每个数据对象仅属于其中一个子集,这种聚类类型称为( B )

A.层次聚类 B.划分聚类 C.非互斥聚类 D.模糊聚类

16、关联规则的评价指标是:( C )。

A. 均方误差、均方根误差 B. Kappa统计、显著性检验

C. 支持度、置信度 D. 平均绝对误差、相对误差

17、分析顾客消费行为,以便有针对性的向其推荐感兴趣的服务,属于( A)问题。

A.关联规则挖掘 B.分类与回归 C.聚类分析 D.时序预测

识别目标用户的兴趣特征,在群体中寻找具有特定兴趣特征的潜在客户,并整合该群体对特定内容的反馈数据;构建一个推荐系统框架;将匹配度较高的内容推荐给具有相似兴趣特征的目标群体。

A. 协同过滤 B. 关联规则 C. 分类 D. 聚类

19、以下不属于数据挖掘常用方法的是( B )。

A.聚类 B.统计分析 C.关联规则 D.回归

20、关于数据预处理,下列叙述错误的是( D )。

A.数据预处理可以改善数据质量

B.数据预处理包括重复值处理、简单函数变换、独热编码

C.数据预处理包括异常值处理、数据标准化、数据合并

D.数据预处理中不包括数据离散化

21、下列不属于数据挖掘工具的是( A )。

A. Word B. Python C. RapidMiner D.KNIME

22、关于数据挖掘的通用流程,下列叙述中正确的是( A )。

在数据挖掘的过程中,通用流程主要包括目标设定、数据获取、数据分析、数据清洗、模型构建与分析阶段以及模型评估等多个环节。

B.分类与回归模型、聚类分析模型的评价方法是相同的

C.数据挖掘的通用流程中目标分析是没有意义的,可以去除

D.抽取数据的标准中不包含有效性

23、在 Python中,正确的赋值语句为( B )。

A.x+y=2 B.x=y=1 C.2y=x+3 D.x=3y

24、关于基本运算2**3的含义,理解正确的是( C )。

A.2x2+2 B.2+2+2 C.23 D. 2x1x3

25、list(range(1,5))的返回结果是( A )。

A.[1,2,3,4] B.(1, 2, 3,4) C.[1, 2,3, 4,5] D.(1, 2, 3,4,5)

26、关于一致性校验的说法正确的是( A )

A. 一致性校验涵盖了时间验证以及字段信息验证。 B. 一致性的校验方案是所有校验方案中最为有效的。

C.一致性校验是唯一的校验方法 D.一致性校验主要用于数据处理

27、下列不是缺失值校验常用函数或方法的是( D )。

A. isnull() B. notnull() C. count() D. mean()

28、异常值校验常用的分析方法是( A )。

A.IQR准则 B.4σ原则 C.牛顿插值法 D.等宽法

29、以下属于异常值分析方法的是( B )

A.权重法 B.箱形图分析 C.归一法 D.插补法

以下不属于高维数据可视化技术的是 ( B )。

A. 星型图 B. 平行坐标

C. 决策树 D. 散点图

(A)是Python广受欢迎的绘图库;其子库pyplot提供了丰富的接口;这种基于函数式的编程方法特别适合动态绘制图表。

A. matplotlib B. pandas

C. numpy D. requests

包含6组数据的训练集计划利用sklearn库中的主成分分析算法对其进行降维处理,并将每个样本的数据维度从4个特征降至3个核心特征以提取主要信息。补充相应的代码实现以完成降维操作。

x=np.array([[-1,2,66,-1],[-2,6,58,-1],[-3,8,45,-2],[1,9,36,1],[2,10,62,1],[3,5,83,2]])

pca = PCA(n_components = ( ))

Tranx = pca.fit_transform(x)

A. 8 B. 10

C. 1 D. 2

30、以下说法正确的是( A )

A.等宽法将属性值域分成相同宽度的区间

B.聚类分析的离散化方法不需要用户指定簇的个数

C.独热编码是唯一有效的处理类型数据的方法

D.将类别数据默认为连续数据进行建模不会影响模型效果

31、下列分别属于分类与回归模型的评价指标的是( C )。

A.混淆矩阵、反馈率 B.均方误差、平均绝对误差

C.ROC曲线、平均绝对误差 D.Kappa统计量、精确率

32、当数据所带标签未知时,可以使用( A )技术找出同类数据,分离其他数据。

A.聚类 B.关联分析 C.主成分分析 D.分类

33、以下不是常见的聚类算法的是( A )。

A.谱聚类 B.层次聚类 C.K-Means 聚类 D.密度聚类

34、以下不属于关联规则算法的是( B )。

A. Apriori算法 B.K-Means 算法 C. Eclat算法 D.FP-Growth算法

35、以下不属于计算相似度的方法的是( A )。

A.协同过滤推荐算法 B. Pearson 相关系数

C.欧几里得相似度 D.余弦相似度

36、下列代码中能够绘制出散点图的是( A )。

A. plt.scatter(x,y) B. plt.plot( x,y)

C. plt.legend(x,y) D. plt.figure(x,y)

37、该字符串对应于 plot 中线条颜色、标记形状以及连接方式,在本题中线条颜色设置为红色五角星标记,并采用点短虚线连接各数据点。其中选项(D)正确表达了这一配置。

A. 'bs-' B. 'go-.' C. 'r+-.' D.'r* :'

38、train_test_split()函数的返回值有( D )个。

A.1 B.2 C.3 D.4

39、数据( B )要求知道样本的最大值和最小值。

A.标准化 B.归一化 C.二值化 D.正则化

数据作( A )处理时要求知道样本的标准差。

A.z-score标准化 B.归一化 C.二值化 D.正则化

40、设置x轴的坐标范围,需要用到( B )函数。

A. xlabel() B. xlim() C. xticks() D.hlines()

41、使用 Pandas不能读取下列( D )文件。

A.xlsx B. txt C.csv D.mdb

42、(多选)无监督学习的两大主要任务是( BD )。

A.回归 B.降维 C.分类 D.聚类

43、以下学习策略中,使用的训练数据只有部分存在标签的是( C )。

A.监督学习 B.深度学习 C.半监督学习 D.无监督学习

提供一批红细胞和白细胞图像样本,并包含相应的标签信息,请设计并实现一个能够对这些样本进行分类的数据模型。这涉及( C )类型的问题。

A.半监督学习 B.无监督学习 C.监督学习 D.以上都可以

46、设{A,B,C}不是频繁项集,则可知( B )。

A.{A,B}一定不是频繁项集 B.{A,B,C,D}一定不是频繁项集

C.{A,B}一定是频繁项集 D.{A,B,C,D}一定是频繁项集

47、下列( B )不属于聚类算法。

A.*-medoids B.k-近邻 C. k-means D.DBSCAN

48、下列( A )是两点之间的直线距离。

A.欧氏距离 B.曼哈顿距离

C.切比雪夫距离 D.闵可夫斯基距离

49、使用Sklearn库进行数据挖掘时,以下( A )函数的参数为训练集。

A.fit() B. predict() C. fit_predict() D.transform(x)

50、y=wx+b可作为下列( B )模型的公式。

A.逻辑回归 B.一元线性回归 C.多重线性回归 D.神经网络

51、数据挖掘的预测建模任务主要包括( A )和回归问题。

A. 分类 B. 回归 C. 模式发现 D. 模式匹配

52、以下和数据挖掘有密切联系的学科是(A )

A. 统计 B. 计算机组成原理 C. 矿产挖掘 D. 体育

53、以下不属于聚类算法的是( C )。

A、K均值 B、DBSCAN C、Apriori D、Jarvis-Patrick(JP)

54、协同过滤算法中以用户为中心的协同过滤算法在计算邻居的过程中是基于( C )这一角度进行分析。

A. 物品 B. 用户和物品 C. 用户 D. 以上都不对

在计算邻居时,在协同过滤算法中基于物品的协同过滤算法会以(A)为视角进行审视

A. 物品 B. 用户和物品 C. 用户 D. 以上都不对

56、在关联式数据挖掘中(D)与置信度是两大核心指标,在此框架下,前者体现了数据间的内在联系模式和覆盖范围大小的相关性特征值,在此框架下,则体现了数据间的内在联系模式和可信程度特征值。

A. 距离 B. 相关性 C. 误差 D. 支持度

在关联规则分析的过程中,在数据挖掘领域中

A. 置信度 B. 相关性 C. 误差 D. 距离

在分类模型中,(B)反映的是训练数据信息过于丰富导致的问题,在这种情况下模型对训练数据的学习过于深入。这种现象不仅会导致模型过度捕捉噪声特征(即所谓的过拟合),还会严重影响模型在测试阶段的识别效果和泛化能力显著下降。

A. 欠拟合 B. 过拟合 C. 精确率高 D. 误差大

如果分类模型未能充分提取数据特征,并未有效拟合数据集,则训练样本利用不足。

A. 欠拟合 B. 过拟合 C. 误差大 D. 准确率高

60、该图表以蓝色正方形和红色三角形分别表示两类数据。该分类采用了KNN算法,在图中被标记为圆圈符号的部分代表最近邻样本。当设置k值为5时,请判断图表中标记为绿色圆形符号的数据属于哪一类?答案:B

A. 红色三角形 B. 蓝色方形 C. 不清楚 D. 都有可能



1.所谓高维数据,是指(B )

A.数据对象很多 B.数据属性很多

C.以上都正确 D.以上都错误

假设属性 income 的最大最小值分别为 1.2 \times 1{,}万元9.8 \times 1{,}万元 。采用最大-最小归一化方法对 attribute 进行标准化处理,则该 attribute 的原始值 73{,}6百 元经过归一化处理后将转换为:(D)

A.0.821 B.1.224

C.1.458 D.0.716

3.朴素贝叶斯分类器之所以称为朴素,是因为(D)

A.只能处理低维属性 B.只能处理离散型属性

C.分类效果一般 D.属性之间的条件独立性假设

4.以下(B)算法是分类算法。

A.DBSCAN B.ID3

C.K-Means D.EM

如果没有标签列可用,则可以选择标记为(B)的方式以区分同类与异类的数据。

A. 分类 B. 聚类

C. 关联分析 D.隐马尔可夫链

第6点中提到,在预测任务中既可以采用分类方法也可以使用回归方法;其中,在这种情况下生成的具体结果通常是具体的类别标签;而回归分析则能够提供一个连续的数值范围。(V)

7.数据挖掘的核心目标是从大量数据中识别潜在的模式或规律,并能够更加有效地完成对描述性数据分析以及预测性数据分析的任务。(V)

关联式挖掘问题是将关联分析分解为两大类子问题:找出频繁项目集并构建关联规则。(V)

9.C4.5算法采用基于信息增益率作为选择分裂属性的度量标准。(V)

10.ID3算法采用基于信息增益作为选择分裂属性的度量标准。(V)

11.CART算法采用gini指数作为选择分裂属性的度量标准。(V)

12.在进行聚类分析时,在同一簇内的数据对象彼此之间的相似程度越高,在不同簇之间的数据对象之间的差异越大,则整体的聚类效果会越佳。(V)

该算法基于对频繁项集进行深入研究而形成的一种开创性方法,在数据处理过程中分层次地完成数据挖掘任务,并通过某种预设性质确保:其所有非空子集也均为高频项集合。

A.apriori B.K-Means

C.SVM D. KNN算法

现有12种商品的销售价格数据为:5元、10元、11元、13元、15元、35元、50元、55元、72元、90元、200元及233元。研究团队决定采用均值分箱法将这些数据划分为4个区间,请问价格为15元的商品落在第(B)个区间内。

A. 1 B. 2

C. 3 D. 4

15.有项集:{A,B}、{A,C,D,E}、{B,C,D,E}、{A,B,C,D}、{A,B,C,F},则{A,C}->{A,B,C}的置信度为(D)

A. 2/5 B. 3/5

C. 3/2 D. 2/3

16.KDD是指(A)

A. 数据挖掘与知识发现 B.领域知识发现

C. 文档知识发现 D.动态知识发现

17.设Y={1,2,3}是频繁项集,则可由Y产生(C)个关联规则。

A. 4 B. 5

C. 6 D.7

18.数据对象(0,2)和(3,6)之间的欧氏距离是(A)

A. 5 B. 3.16

C. 3 D. 2

19.(C)可以用来将数据压缩到较小的区间,如0到1。

A. 数据集成 B. 数据归约

C. 数据变换 D.数据清理

20.四分位数共有(C)个数据点。

A. 1 B. 2

C. 3 D.4

21.同时满足最小支持度阈值和最小置信度阈值的规则称为(A)。

A. 强关联规则 B. 弱关联规则

C. 频繁项集 D.以上都不是

22.盒图中可以观察到的指标有(B)

A.方差 B. 四分位数

C.标准数 D.众数

23.KNN分类的核心问题包括距离的计算、(B)、类别判定。

A. 最大值 B. K值的确定

C. 信息增益的计算 D.支持度

24.CART算法通过计算属性的(C)来确定分裂能力最好的属性。

A.信息增益 B. 增益

C.基尼指数 D. k-means

25.多重共线性的解决方法有主成分回归、偏最小二乘法、Lasso和(A)

A.岭回归 B.逻辑回归

C.朴素贝叶斯 D. K折交叉验证

26.对于数据挖掘中的原始数据,存在的问题可能有缺失值、不一致、维度高、(D)。

A. 完整性 B. 一致性

C. 维度低 D. 重复

27.K近邻分类的距离计算方法可以使用(A)

A.欧氏距离 B. 中位数

C.平均数 D. 以上都不行

28.离群点数据的平滑方法主要有(D)。

A.平均值法 B.边界值法

C. 中值法 D. 以上都对

29.朴素贝叶斯分类不可以用于(B)

A.新闻分类 B.房价预测

C. 情感分类 D. 垃圾邮件分类

某超市在分析销售记录数据后观察到:当顾客购买啤酒时,他们有很高的概率也会采购尿布。这种关联性属于数据挖掘中的哪种分类问题?

A.关联规则 B. 聚类

C.分类 D. 自然语言处理

全部评论 (0)

还没有任何评论哟~