中国大学MOOC·北京理工大学·大数据基础与应用——期末考试
以下答案仅供参考,如有错误欢迎指正~
单选(2分)下列数据类型中,不属于Python内置数据类型的是:
A.bool
B.float
C.dtype
D.str
该DataFrame对象包含name和age两个字段的数据共计100行,则下列表达式中错误的一个选项是.
A.d[2,’name’]
B.d[‘age’]
C.d.loc[2,’name’]
D.d.age
单选(2分)下列有关Python和JSON的描述中,错误的是.
A.load()用于把JSON文件转换为内置对象
B.Python的None被转换为JSON的null
C.Python的字典被转换为JSON的object类型
D.Python使用CSV库的loads()把JSON字符串转换为内置对象
单选(2分)下列聚类算法哪种属于基于划分的聚类?
A.k-均值算法
B.CURE算法
C.神经网络算法
D.DBSCAN算法
单选(2分)以下不属于高维数据可视化技术的是.
A.RadViz
B.词云
C.降维投影
D.平行坐标
单选(2分)以下哪个是常见的大数据处理流程.
A.数据获取、数据清洗、数据分析、数据可视化
B.数据清洗、数据获取、数据可视化、数据分析
C.数据清洗、数据获取、数据分析、数据可视化
D.数据可视化、数据清洗、数据获取、数据分析
单选(2分)大数据分析技术可以应用于哪些行业.
A.政务和交通
B.金融和农业
C.其他全是
D.医疗和健康
判断(2分)NaN在Python标准库中定义为整数0。(✘ )
判断(2分)词典中的key不能是字典类型,但value可以是字典类型。(✔ )
判断(2分)传统的数据分析主要用于开展描述性和诊断性分析活动,而大数据分析的主要目标是实现预测性分析的作用。(✔)
判断(2分)峰度是数据分布偏斜程度的测度。(✘ )
判断(2分)偏度系数在0.51或-1-0.5之间被称为高度偏态分布。(✘ )
评估(满分2分)中指出:数据工程师的主要职责包括对数据进行分类整理与系统化管理,并完成基础数据统计分析;其核心任务是挖掘潜在价值并评估其商业潜力;通过建立预测模型以应对商业挑战。
判断(2分)网络和层次化数据可视化的主要技术有力导图和TreeMap。(✔ )
填空(2分)已知p = np.arange(20).reshape((4,5)),则p[3][2]的值是 。
正确答案:17
填空(2分)训练误差和测试误差之间的差距太大在机器学习的术语是___。
正确答案:过拟合
填空(2分)请计算下列数据{10,12,16,18,22,35,45,50,90,100}的p=40%的截断均值_____
正确答案:31
填空(2分)大数据的特点主要包括:体量大、______、和
正确答案:类型多 速度快 价值密度低
填空(2分)每条发布到Kafka集群的消息都有一个类别,这个类别被称为 。
正确答案:Topic 或 主题 或 topic
填空(2分)Hadoop生态圈中最底层的存储系统是 。
正确答案:HDFS 或 hdfs
