Advertisement

数据挖掘训练题

阅读量:

单选题

某超市通过对销售记录数据进行分析后得出结论:购买啤酒的顾客有较高的概率也会采购尿布件这类问题归类于以下哪种数据挖掘方法?(A)
A. 关联规则发现
B. 聚类
C. 分类
D. 自然语言处理

请指出下面两种描述各自对应哪两项用于评估分类算法的标准? (A)
(a)从执法者的角度来看,在抓捕行为中被逮捕的对象中占有多大比例的小偷。
(b)评估执法者是否能成功抓住一定比例的小偷。

A. Precision, Recall
B. Recall, Precision
C. Precision, ROC
D. Recall, ROC

3. 在数据预处理阶段对原始数据进行集成、变换、维度规约以及数值规约的操作旨在完成以下哪一任务?(C)

当无法得知数据所属类别时, 可以采用何种方法将具有相同标记的数据与其非相同标记的数据区分开来?(B) A. 分类方法 B. 聚类技术 C. 关联分析方法 D. 隐马尔科夫模型

5. KDD是什么? (A)
A. 基于数据的知识获取方法
B. 领域知识发现
C. 文档知识发现
D. 动态性特征分析

5. KDD是什么? (A)
A. 基于数据的知识获取方法
B. 领域知识发现
C. 文档知识发现
D. 动态性特征分析

6. 使用互动性和图形化技术深入分析数据特征属于哪种数据挖掘任务?(A) A. 数据探究性研究 B. 数据构建模型 C. 基于预测的数据建模 D. 数据模式识别

7. 构建数据的整体分布模型;将高维空间划分为若干类别等问题属于数据挖掘的哪一类任务?(B)
A. 初始分析阶段
B. 建模描述
C. 预测建模
D. 模式识别与规则提取

请在【

请在【

用户有一个感兴趣的具体模式,并且同时希望在数据集中寻找与之类似的其他模式。这属于数据挖掘中的哪一类任务?

  1. 下面哪种不属于数据预处理的方法? (D)
    A变量替换
    B离散处理
    C数据分组
    D估算缺失值

假设有十二组已按顺序排列好的销售价格数据如下所示:5、10、11、13、15、35、50、55、72、92、204和215。接下来分别采用以下几种方法对这些数据进行分箱处理。请问采用等频(等深)分箱法时,请问数值15属于哪一个箱子?(B选项)

在之前的题目中,在采用等宽划分的方式时(宽度设定为50),数字15位于哪一个箱子?(A选项)

14.下面哪个不属于数据的属性类型:(D)
A 标称
B 序数
C 区间
D相异

15. 在上题中,属于定量的属性类型是:(C)
A 标称
B 序数
C 区间
D 相异

  1. 仅限于非零值的重要二元属性被称为:( C )
    A. 计数属性
    B. 离散属性
    C. 非对称的二元属性
    D. 对称属性

17. 以下哪种方法不属于特征选择的标准方法: (D)
A 嵌入
B 过滤
C 包装
D 抽样

在创建新属性的相关方法中,不属于的是(B)

19. 考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是 (C)
A 2
B 3
C 3.5
D 5

  1. 下面哪一项属于将数据映射到新空间的方法? (A)
    A 傅里叶变换
    B 特征赋予权重
    C 渐近抽样
    D 维度缩减

21. 熵代表消除不确定性所需的信息量, 均匀正六面体骰子所对应的熵等于(B) A 1比特 B 2.6比特 C 3.2比特 D 3.8比特

设属性 income 的最大值为98,555美元、最低工资为45,678美元?

Suppose the data to be analyzed includes the attribute age. The values of age in the data tuples are listed in ascending order: 13; 15; 16; 16; 19; 20; 20; 21; 22; … The smoothing process using the box average method is applied to the data with a box depth of three. The value of the second box is: (A) A)
A)
B)
C)
D)

24. 考虑值集{12 24 33 2 4 55 68 26},其四分位数极差是:(A)
A 31
B 24
C 55
D 3

一所大学中各年级的学生人数如下:一年级有200人,二年级有160人、三年级有130人、四年级有110人,则该大学学生年龄属性的众数为:(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级

请指出以下哪一个并非专门用于可视化时间空间数据的技术?(B)

在抽样方法中使用时,在难以确定合适样本容量的情况下可采用的抽样方法是: (D) A 重复的简单随机取样 B 不重复的简单随机取样 C 分层取样 D 渐近法

28. 数据仓库是随着时间变化的,下面的描述不正确的是 (C)
A. 数据仓库随时间的变化不断增加新的数据内容;
B. 捕捉到的新数据会覆盖原来的快照;
C. 事件驱动型的数据仓库会定期删除过时的数据信息;
D. 数据仓库中包含有大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.

下面关于基本元数据的说法哪一项是正确的?选项为:(D)

30. 下面关于数据粒度的描述不正确的是: (C)
A. 粒度主要体现于数据仓库中小块数据单元细节层次的高低;
B. 当细节层次越高时,会导致该区域的粒度相应降低;
C. 随着综合能力更强的数据单元出现,其粒度及相应的等级也会同步提升;
D. 该划分方案将直接影响其存储规模与检索效能.

31. 有关数据仓库的开发特点,不正确的描述是: (A)
A. 数据仓库开发要基于数据;
B. 数据仓库的需求必须明确;
C. 数据仓库的开发是一个循环进行的过程,属于启发式的开发;
D. 在数据仓库环境中并不存在固定的操作流程,数据分析与处理更加灵活,也没有确切的模式

在数据仓库测试中,下列说法不正确的是: (D)
A. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.这些测试工作应包括单元测试和系统测试.
B. 当每个单独组件完成后,就需要对他们进行单元测试.
C. 系统的集成测试需要对所有组件进行全面的功能测试和回归测试.
D. 在开始测试前无需编写详细的操作方案.

33. OLAP技术的核心是: (D)
A. 在线性;
B. 对用户的快速响应;
C. 互操作性.
D. 多维分析;

涉及OLAP的特点,下面正确的有哪些:(D)

35. 关于 OLAP 和 OLTP 的区别描述, 不正确的是: (C)
A. 它们主要涉及如何分析大量分散的数据集,并与其OTAP程序存在显著功能差异.
B. 相较于基于数据仓库的 OLAP 系统, OLTP 系统处理的是数量众多但相对简单的事务.
C. 尽管事务频率较高, 但每个事务的内容通常较为单一.
D. 虽然它们均源自底层数据库系统, 但作为数据仓库管理系统的 OLAP 解决方案与传统 OLTP 系统的主要目标群体是相同的.

36. OLAM技术通常被简称为"Data-Driven Analysis and Mining"。以下说法正确的是: (D)
A. OLAP与OLAM均基于客户机/服务器模式,其中仅有后者具备与用户的交互性;
B. 由于OLAM中的立方体与其用于OLAP的应用存在本质区别.
C. 基于WEB的技术整合到OMAL形成了新的分析模式.
D. OLAM服务器通过用户图形界面接收并处理用户发出的分析请求,根据元数据信息,在超级立方体内执行相应的操作步骤.

37. 关于OLAP和OLTP的说法,下列不正确的是: (A)
A. OLAP规模较大,但内容较为单一且重复频率较高.
B. OLAP的数据来源与OLTP存在差异.
C. OLTP主要服务于管理层及决策者.
D. OLTP以应用场景为核心,并由其驱动发展。

38. 设X={1,2,3}是频繁项集,则可由X产生__(C)__个关联规则。
A、4
B、5
C、6
D、7

40. 概念分层图是__(B)__图。
A、无向无环
B、有向无环
C、有向有环
D、无向有环

41. 频繁项集、频繁闭项集、最大频繁项集它们之间存在什么关系? (C)

给定的数据集中仅包含5个项,在采用合并策略生成4-项集时发现候选产生过程所生成的4-项集不包含(C):
A、{1,2,3,4}
B、{1,2,3,5}
C、{1,2,4,5}
D、{1,3,4,5}
在以下选项中t不是s的子序列的是 ( C ):
A、s=<{2,4},{3.5.6},{8}> t=<{2},{3.6},{8}>
B、s=<{2.4}.{3.5.6}.{8}> t=<{2}.{8}>
C、s=<{1.2}.{3.4}> t=<{1}.{2}>
D、s=<{2.4}.{2.4}> t=<{2}.{4}>

在图集合中识别一组公共子结构,则此类任务被称为(B)

45. 下列度量不具有反演性的是 (D)
A、系数
B、几率
C、Cohen度量
D、兴趣因子

  1. 下列(A)不包括将主观信息融入模式发现任务的方法。
    A. 通过与其他时间段的数据对比分析
    B. 图形化呈现
    C. 模板化处理的方式
    D. 基于个人兴趣评估的标准

47. 下面购物篮能够提取的3-项集的最大数量是多少(C)

ID 购买项
1 牛奶与乳制品常被共同选购
2 面包与黄油常常搭配在一起
3 牛奶与日常用品如纸巾常被同时购买
4 面包与黄油常被顾客一并采购
5 啤酒与零食类商品常出现在购物篮中
6 顾客经常一起选购牛奶乳制品及烘焙食品
7 顾客常见于同时购买面包黄油及日常用具
8 啤酒与零食类商品常被共同挑选
9 顾客常见于同时采购牛奶乳制品及烘焙食品
10 啤酒与零食类商品常被顾客一并收入购物车

A、1
B、2
C、3
D、4

48. 以下哪些算法是分类算法,(B)
A,DBSCAN
B,C4.5
C,K-Mean
D,EM

49. 以下哪些分类方法可以较好地避免样本的不平衡问题, (A)

A,KNN
B,SVM
C,Bayes
D,神经网络

50. 决策树中不包含一下哪种结点, (C)

A, 基础节点(base node)
B, 中间节点(middle node)
C, 外围节点(outer node)
D, 末端节点(end node)

51. 不纯性度量中Gini计算公式为(其中c是类的个数) (A)
A, B, C, D, (A)

53. 以下哪项关于决策树的说法是错误的 (C)
A. 冗余属性通常不会对决策树的准确性产生负面影响
B. 子结构在构建过程中可能会被反复使用
C. 对噪声较为敏感
D. 生成最优决策树的过程属于NP难问题

在基于规则分类器中, 根据规则质量的一种度量方法对规则进行排序, 使得每个测试记录被其覆盖且质量最高的规格所分类, 这种方案被称为 (B)

55. 以下哪些算法是基于规则的分类器 (A)
A. C4.5
B. KNN
C. Na?ve Bayes
D. ANN

56. 如果在某条记录触发下不会同时激活两条特定的生产式,则该生产式集合被称为(C);
A. 非顺序型;
B. 全选型;
C. 相互排斥型;
D. 顺序型

如果对属性值的任一组合都存在一条覆盖,则称这些规则为穷举型的

当规则集中的各个规则按照其优先级由高到低依次排列时,则称该规则集属于选项(D)

第59题

考察两支队伍之间的足球对决:队伍A和队伍B。统计数据显示,在这些比赛中,有65%的结果由队伍A取得胜利;其余则由队伍B获得。进一步分析显示,在队伍A赢得的比赛仅有30%是在对手主场进行的;与此同时,在队伍B赢得的比赛中有75%是在客场完成的。若下一场对决安排在队伍B主场,则其获胜概率为选项中的哪一个?

  1. 以下关于人工神经网络(ANN)的描述存在错误的是 (A)
    A. 神经网络对训练数据中的噪声具有良好的抗噪声能力
    B. 神经网络能够处理冗余特征
    C. 神经网络的训练过程耗时较长
    D. 神经网络必须包含至少一个隐藏层才能形成多层结构

62. 基于多个分类器的预测集成来提升分类准确性的一项技术称为 (A)\nA. 集成(ensemble)\nB. 汇总(aggregate)\nC. 整合(combination)\nD. 投票(voting)

将数据对象集划分为互不重叠的子集群,并确保每个数据对象仅属于一个子集,则这种聚类方法称为( B )。

在基本K均值算法中,在采用(A)作为测度时(C)即为这些簇的合适中心点即为各点坐标的中位数。(C)被定义为一个观测体它与其他观测体相比具有显著差异性以至于有必要怀疑其生成机制与其它观测存在明显不同。

66. BIRCH是一种( B )。
A、分类器
B、聚类算法
C、关联分析算法
D、特征选择算法

一元正态分布中的离群点被检测出来属于异常检测中基于( A )的方法用于识别离群点。
选项( C )通过计算不同簇间所有点对的平均逐对邻近度来衡量两个簇间的邻近程度。
选项( D )则通过计算合并两个簇所导致平方误差增量的变化来确定它们之间的邻近度。
这种方法被认为是凝聚层次聚类技术中的一种典型应用。

70. DBSCAN在最坏情况下的时间复杂度是( B )。
A、O(m)
B、O(m2)
C、O(log m)
D、O(m*log m)

在基于图构建的簇评估体系中,在计算节点间相似性时采用proximity(Ci, C)作为指标,则该分类方式属于(C)。

72. 关于K均值和DBSCAN的比较,以下说法不正确的是( A )。
A、将被归类为噪声的数据点排除,而DBSCAN通常会将数据点分组到相应的簇中。
B、K均值基于每个簇代表性的概念,而DBSCAN则采用基于数据密度的概念。
C、K均值难以处理具有非圆形形状以及大小各异的簇,但DBSCAN能够管理大小与形状各异的簇。
D、虽然K均值能够识别出部分重叠且不明显分开但仍然存在的群组结构,但当出现部分重叠时,DBSCAN会倾向于将这些相近的数据点归为同一类别

以下是哪一种聚类算法的工作流程?首先构建k-近邻图;然后采用多层划分法对图进行处理;接着反复合并那些在相对联系度与相近程度上最优地维持自身结构稳定的簇;直至所有可合并的簇均无法再进行优化合并。( C )。 A是最小生成树(MST);B是OPPOSUM算法;C是CHAMELON方法;D是Jarvis-Patrick(JP)聚类法

74. 某种情况下,在两个不同类别之间出现了一个对象偶然地相互靠近的情形。
因为它们通常共同拥有的邻居数量较少,
所以应该采用( D )作为相似度计算的方法。
A、平方欧几里德距离
B、余弦距离
C、直接相似度
D、共享最近邻

75. 以下属于可伸缩聚类算法的是( A )。
A、CURE
B、DENCLUE
C、CLIQUE
D、OPOSSUM

下面哪一个聚类算法不属于基于原型的方法(D选项)

  1. 下列关于混合模型聚类算法优缺点的说法正确的是( B )。
    A、当簇仅包含少量数据点或呈现近似共线性时,混合模型仍能有效处理这些情况。
    B、相对于K均值或模糊c均值算法而言,混合模型更具一般性优势在于其能够采用多种类型的分布模型来刻画数据特征。
    C、对于大小差异明显且形状复杂的簇群结构识别能力而言,混合模型表现不足。
    D、在面对噪声污染和异常数据时与传统方法相比并无特殊优势。

下面哪一个聚类算法不是grid-based clustering algorithm的问题( D )。
A、STING
B、WaveCluster
C、MAFIA
D、BIRCH

一个对象的离群点得分为该对象周围邻域密度的倒数;这基于(C)中的离群点定义

80. 下面关于Jarvis-Patrick(JP)聚类算法的说法不正确的是( D )。
A、JP聚类有效处理异常点,并能应对多样化的簇结构。
B、JP算法在高维数据上表现出色,并特别擅长发现高度相关对象的紧凑的簇结构。
C、该方法基于共享近邻(SNN)相似度的概念。
D、该算法的基本时间复杂度为O(m)。

二、 多选题

通过数据挖掘过程所推导出的关系与摘要通常被称作(A B),其中选项分别为:A. 模型;B. 模式;C. 模范;D. 模具。

为了更精准、便捷且具有价值地归纳总结数据某一特征的表现形式, 这一过程涉及以下哪些步骤? (A B C D)
A. 确定所采用表示的核心要素及其组织架构
B. 评估不同表征与数据匹配程度的标准方法
C. 通过优化评分标准来选择最适合的数据分析算法
D. 基于效率考虑选择适用的数据处理规范

3. 数据挖掘的预测建模任务主要涉及哪些大类问题? (A B)

数据挖掘算法的组件包括:(A) 模型架构、(B) 评估标准、(C) 优化算法与搜索策略、(D) 数据处理策略

5. 哪些学科与数据挖掘密切相关?(A D)

在现实世界的数据集中, 元组通常会缺失某些属性的值。用于处理这些问题的方法包括:(ABCD E) A 忽略所有包含缺失值的元组 B 通过计算各属性的平均值得出补全值 C 采用统一设定的一个常数值来替代缺失项 D 基于同类样本计算均值得出补全依据 E 采用最可能估计法来填补缺失数据 下面哪些是用于可视化的高维数据分析技术?(ABCE) A 矩阵 B 平行坐标图 C 星形坐标图与散布图 D 散布图 E Chernoff脸

8. 对于存在于数据分析中的原始样本而言,请指出其存在的缺陷有哪些? (ABCDE)

以下哪种类型的数据被认为是有序的? (ABCDE)

以下哪种特征被认为是典型的? (BCD)

11. 下列属于维归约常用的线性代数技术的是:(A 和 C)
A 主成分分析
B 特征提取
C 奇异值分解
D 特征加权
E 离散化

12. 在以下列出的内容中,请指出哪些属于数据库的基本特征: (ACD)

  1. 以下各项均是针对数据仓库的不同说法,请判断正确的有(BCDE)。
    A.数据仓库相当于数据库系统
    B.数据仓库是所有商业智能系统的必备基础
    C.数据仓库面向业务需求并支持执行日常事务操作(OLTP)
    D.数据 warehouse 能够提供决策分析功能而非仅限于事务处理
    E.数据分析与长期战略规划是 data warehouse 的主要目标

14. 数据仓库的技术工作流程是以下哪一项: (ABCD)
A. 数据的收集
B. 存储与维护
C. 数据的展示
D. 数据库的设计
E. 数据的表现

15. 在线分析处理包含以下哪些核心分析功能? (BCD)
A. 聚类
B. 切片
C. 转轴
D. 切块
E. 分类

通过Apriori算法找出频繁项集能够显著减少计算过程中的时间消耗。在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是(BD)

A、啤酒、尿布
B、啤酒、面包
C、面包、尿布
D、啤酒、牛奶

此表为一个购物篮,设定的支持度阈值为40%,其中(A,D)代表频繁闭项集. TID及其项目列表: 1 包含项目abc; 2 包含项目组合abcd; 3 包含项目组合bce; 4 包含项目组合acde; 5 包含项目de.

A、abc
B、ad
C、cd
D、de

The computational complexity of the Apriori algorithm is influenced by factors such as the minimum support threshold, dimensionality, number of transactions, and average transaction width.

非频繁模式__(AD)__
A、其支持度低于预设阈值
B、多为不受欢迎的
C、包括负向模式以及负相关关系
D、容易受到异常数据的影响

20. 以下属于分类器评价或比较尺度的有: (ACD)

A,预测准确度
B,召回率
C,模型描述的简洁度
D,计算复杂度

用于评估不平衡类别问题分类性能的方法主要包括以下几种:(ABCD)
A,F1指标
B,召回率指标
C,精确率指标
D,真正正率指标

贝叶斯信念网络(BBN)具有以下哪些特点?
(AB)
A,构造网络耗时耗力
B,模型对于过参数化非常稳健
C,贝叶斯网络不适合处理不完整数据
D,确定网络结构后增加变量相当繁琐

C,该分类器依赖于全局信息做出预测判断

24. 如下那些不是基于规则分类器的特点,
(AC)
A,相比之下,在表达能力方面规则集明显逊色于决策树
B,基于规则的分类器通常会对属性空间进行线性划分,并将类别分配到每个划分区域中
C,不具备生成直观描述性模型的能力
D,特别适合用于解决类别分布不均衡的问题

  1. 下列是聚类算法的有( ABD)。
    A、K均值
    B、DBSCAN
    C、Apriori
    D、Jarvis-Patrick(JP)
    ( CD )均属于簇有效性的监督指标。
    A、轮廓系数
    B、共性分类相关系数
    C、熵
    D、F度量

27. 簇的有效性基于相似性的度量主要包括( B 和 C )。

上述提到的各项属性均会对聚类分析产生显著影响

在聚类分析领域中, (AD) 这些技术能够有效处理任意形状的簇

30. ( AB )都属于分裂的层次聚类算法。
A、二分K均值
B、MST
C、Chameleon
D、组平均

三、 判断题

数据挖掘的核心目标是通过分析大量数据来识别潜在的模式或规律,在此过程中能够更加有效地完成描述性分析和预测性分析等关键任务。

2. 数据挖掘的目标不仅仅不是依靠于数据采集策略这一手段, 而是侧重于从现有的大量数据中发现潜在的规律与模式。(对)
3. 图挖掘技术在社会网络分析领域发挥着关键作用。(对)

4. 该模式旨在对数据集的整体特征进行归纳总结,并能够全面描绘整个测量空间的所有点;而模型则专注于刻画变量变化空间中某个特定区域的行为。(错)

5. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(错)

6. 离群点可以是合法的数据对象或者值。 (对)

7. 离散属性总是具有有限个值。 (错)

8. 噪声和伪像是数据错误这一相同表述的两种叫法。 (错)

9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。 (对)

10. 特征提取技术并不依赖于特定的领域。 (错)

11. 序列数据没有时间戳。 (对)

12. 定量属性可以是整数值或者是连续值。 (对)

13. 可视化技术对于分析的数据类型通常不是专用性的。 (错)

14. DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。(对)

OLAP技术侧重于将数据库中的数据进行分析处理,并将其转换为辅助决策信息;它是继数据库技术发展而迅速兴起的一种新兴技术手段。

16. 商业智能系统与一般交易系统的显著区别在于:后者将结构强加给商务活动,并且等到系统的结构已经确定后其运行程序和规则不容易更改;而前者则是一个自适应学习型系统,并能够适应商务环境的不断变迁需求。

17. 数据仓库中间层OLAP服务器只能采用关系型OLAP (错)

18.系统中的数据分析架构主要由以下几大部分构成:核心存储库作为基础资源库运行关键业务逻辑模块;存储管理系统负责对业务对象进行元数据管理和物理对象管理;数据分析工作区提供标准化的数据获取与处理环境;大数据分析平台则整合了多种统计建模算法并支持多种类型的数据挖掘需求。

Web数据挖掘基于数据库中某些属性来预测出另一个属性,在验证用户提出的假设的过程中进行信息提取

21. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(错)

22. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。

23. 先期规律具体而言:若某一集合频繁出现,则包含于其内的所有子集同样也会频繁出现。(错误)

24. 当某规则不达到预设置信水平时,则与该规则相关的所有子模式也必然不满足该置信度阈值(即当且仅当)。其中X'是其对应的子集。

25. 具有较高的支持度的项集具有较高的置信度。(错)

聚为类(clustering)是一种方法:它识别出并区分数据类别或概念的模型(或函数),用于基于这些模型预测未知实例的类别标签。

在预测任务中, 分类与回归方法均可使用. 其中, 分类模型将生成互斥且有限的具体类别, 而回归分析则生成连续型数值结果. (正确)

在SVM分类算法中,绝大多数待分样本属于非支持向量类别,在去除或缩减这些非关键样本的情况下也不会显著影响分类结果

29. 贝叶斯法是一种基于已知先验概率和类条件概率的模式识别技术,在给定各类别条件下实现待判样本的最佳分类。其核心在于通过各类域内样本集合的整体特征来确定待判样本的具体归属。(错)
在理论层面,分类模型的整体误差可划分为两类:一类是基于训练集的数据所计算出的训练集误差(training error),另一类是在新数据测试下表现出来的泛化误差(generalization error)。通常情况下,在相同的训练集规模下后者更能反映出模型的真实性能。(对)

在决策树中,当树中的结点数目过大时,尽管模型的训练误差仍在持续降低,但验证误差却逐渐增大,这表明模型出现了拟合不足的问题

支持向量机(SVM)作为一种分类器,在通过求解能够最大化数据集间隔的过程中确定一个能够分离不同类别数据的超平面;这样的超平面通常也被称作最小边缘分类器(Minimal Margin Classifier, MMC)。

在聚类分析中,在同一类别内部的样本越相似,在不同类别之间的样本差异越大,则整体分类效果会越差。(错)

34. 聚类分析可以看作是一种非监督的分类。(对)

K-means algorithm is a density-based clustering method that generates partitioned clusters. It automatically determines the number of clusters based on the data characteristics. (Incorrect)

给定由两次运行K均值算法所得出的两个不同簇集,在具有最大误差平方和的那个簇集中应被视为最佳选择

37. 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)

38. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对)

39. 基于点的数据集构建初始簇,在分层聚类方法中逐步将距离最近的两个簇进行合并。(错)
40. DBSCAN算法具有抗噪声能力,并能识别不同形状与大小的数据集群。(对)

全部评论 (0)

还没有任何评论哟~