Advertisement

中国大学MOOC·北京理工大学·大数据基础与应用——期末考试

阅读量:

以下答案仅供参考,如有错误欢迎指正~

单选(2分)下列数据类型中,不属于Python内置数据类型的是:

A.bool

B.float

C.dtype

D.str

该DataFrame对象包含name和age两个字段的数据共计100行,则下列表达式中错误的一个选项是.

A.d[2,’name’]

B.d[‘age’]

C.d.loc[2,’name’]

D.d.age

单选(2分)下列有关Python和JSON的描述中,错误的是.

A.load()用于把JSON文件转换为内置对象

B.Python的None被转换为JSON的null

C.Python的字典被转换为JSON的object类型

D.Python使用CSV库的loads()把JSON字符串转换为内置对象

单选(2分)下列聚类算法哪种属于基于划分的聚类?

A.k-均值算法

B.CURE算法

C.神经网络算法

D.DBSCAN算法

单选(2分)以下不属于高维数据可视化技术的是.

A.RadViz

B.词云

C.降维投影

D.平行坐标

单选(2分)以下哪个是常见的大数据处理流程.

A.数据获取、数据清洗、数据分析、数据可视化

B.数据清洗、数据获取、数据可视化、数据分析

C.数据清洗、数据获取、数据分析、数据可视化

D.数据可视化、数据清洗、数据获取、数据分析

单选(2分)大数据分析技术可以应用于哪些行业.

A.政务和交通

B.金融和农业

C.其他全是

D.医疗和健康

判断(2分)NaN在Python标准库中定义为整数0。(

判断(2分)词典中的key不能是字典类型,但value可以是字典类型。(

判断(2分)传统的数据分析主要用于开展描述性和诊断性分析活动,而大数据分析的主要目标是实现预测性分析的作用。(

判断(2分)峰度是数据分布偏斜程度的测度。(

判断(2分)偏度系数在0.51或-1-0.5之间被称为高度偏态分布。(

评估(满分2分)中指出:数据工程师的主要职责包括对数据进行分类整理与系统化管理,并完成基础数据统计分析;其核心任务是挖掘潜在价值并评估其商业潜力;通过建立预测模型以应对商业挑战。

判断(2分)网络和层次化数据可视化的主要技术有力导图和TreeMap。(

填空(2分)已知p = np.arange(20).reshape((4,5)),则p[3][2]的值是 。

正确答案:17

填空(2分)训练误差和测试误差之间的差距太大在机器学习的术语是___。

正确答案:过拟合

填空(2分)请计算下列数据{10,12,16,18,22,35,45,50,90,100}的p=40%的截断均值_____

正确答案:31

填空(2分)大数据的特点主要包括:体量大、______

正确答案:类型多 速度快 价值密度低

填空(2分)每条发布到Kafka集群的消息都有一个类别,这个类别被称为 。

正确答案:Topic 或 主题 或 topic

填空(2分)Hadoop生态圈中最底层的存储系统是 。

正确答案:HDFS 或 hdfs

全部评论 (0)

还没有任何评论哟~