Advertisement

2022智慧树知到网课答案 北京理工大学 大数据思维与技术

阅读量:

花费了本人5元购买。
希望学弟学妹们就不用浪费这个不必要的开销了~
答案仅供参考,请大家好好完成作业哈!
尽管题目初次看起来似乎难以应对, 但如果认真听课, 并通过课外学习来掌握相关知识, 这些问题自然能够解决~(具体来说, 比如很多穿着迷彩服的同学反映课程内容非常有趣, 哈哈哈大笑的同学也很多哦)I believe with hard work and persistence, everyone can master the material well!

【作业】第一单元:大数据思维与技术认知 第一单元作业

问题:举例说明生活中常见的信息系统有哪些?
评分规则: 要求列举不少于四个常见生活中的信息系统方能获得满分。

第一单元:大数据思维与技术认知 第一单元测试

PCDL,TIPO

PCDL, TIPO

PCDL, TIPO

问题:分布式文件系统的设计目标主要包含透明性、并发控制、可伸缩性、容错以及安全需求等。客户端对文件的读写行为不会干扰到其他客户端对同一文件的读写行为这一现象表明()。
选项:
A:并发控制
B:透明性
C:可伸缩性
D:容错
答案: 【并发控制

问题:Hive是一个基于(Hadoop/Spark/Impala/BigTable)平台构建的数据仓库工具,在处理存储于(文本文件/NoSQL文件/HDFS/HBase)文件时执行数据整理、特殊查询和分析。

Datanode

Datanode

Data Node

Data Node

快速的学习能力; 系统的思维方法; 丰富的知识图谱

大学教育旨在培养以下各项核心能力:包括高效的学习素养、系统性的思维方式以及广博的知识储备。这些能力构成了学生全面发展的重要基础。

大数据已成为网络攻击的主要目标;
大数据增加了个人隐私信息泄露的风险;
大数据存储与安全防范措施存在明显不足;

感知设备的普及;
物联网体系架构逐步成熟;
社交网络承载;
云计算为支撑

感知设备的应用越来越广泛;
物联网技术逐渐完善;
社交网络的作用日益重要;
云计算技术起到关键作用

问题

感知设备的应用越来越广泛;
物联网技术逐渐完善;
社交网络的作用日益重要;
云计算技术起到关键作用

用户隐私保护;
数据的可信性;
数据的访问控制以及APT;
数据的存储安全

个人信息保护;
数据可信度;
数据访问控制与APT;
数据存储安全性

个人信息保护;
数据可信度;
数据访问控制与APT;
数据存储安全性

错误

错误

错误

问题

基于大数据分析的场景下,在随着时间的推移或更新的情况下(即数据发生变化时),模型不会随之改变。

错误

错误

问题

错误

错误

错误

问题:Hadoop直接将数据加载到内存中进行处理,从而使得读取速度比存储在硬盘上时更快得多

13、 问题:HDfS 中的 block 默认保存3份。
选项:
A:正确
B:错误
答案: 【正确】

第二单元:大数据分析领域技术 第二单元测试

问题:以下不符合大数据特点的是?
选项:
A: 大数据的特征
B: 数据处理效率高
C: 应用范围广
D: 数据存储规模广
答案: 【价值密度高

Datanode

请指出以下哪个程序负责管理HDFS的数据存储? 选项如下:A. Datanode B. Jobtracker C. NameNode D. secondaryNameNode 答案:【Datanode

大数据自身安全; 大数据安全应用

大数据自身安全; 大数据安全应用

问题

可信计算体系;
权限控制机制;
匿名化保护技术和认证技术和;
数据水印技术和数据溯源机制

问题:网络空间大数据安全的基本内涵中,在保障大数据自身安全方面,则涉及抓取与存储的安全措施。

错误

问题:Hadoop的文件API不具备通用性, 仅限于HDFS文件系统的操作.

【作业】第二单元:大数据分析领域技术 第二章单元作业

基于授课内容的深入分析,请阐述数据库系统与数据仓库系统在功能特点上的差异以及二者之间的相互关联性

2、 问题: 批量计算是什么?实时计算又是什么?两者在应用场景上有哪些不同?
评分标准: 【 批量计算与实时计算的回答只要合理即可得分(各1分),具体应用场景的描述也能分别获得1分(合计2分)。

答出Map、Reduce过程1分,答出数据存储过程1分,叙述清楚1分。

请概述MapReduce执行流程的基本步骤

第三单元:大数据分析编程基础 第三单元测试

1、 问题:Kali Linux基于()
选项:
A:Debian
B:Ubuntu
C:RedHat
D:Arch

答案: 【

Debian

插入模式

在执行某个操作时需要切换到哪种模式?

插入模式

3、 问题:为了使文件能被任何一个人修改,需要将权限设置为()
选项:
A:777
B:644
C:611
D:771
答案: 【777】

4、 问题:Linux为了安装软件需要使用()
选项:
A:apt
B:gcc
C:make
D:g++
答案: 【apt】

问题

计算机取证;
密码破解;
木马

具体包括计算机取证;攻击手段;木马程序

具体包括计算机取证;攻击手段;木马程序

vim; emacs; vi

vim; emacs; vi

在Linux系统中进行文本编辑时可使用的工具包括()
A选项是vim
B选项是emacs
C选项是vi
D选项是grep
答案:【vim, emacs, vi

问题:Linux的权限组包括哪些?
选项:
A: 用户
B: 组别
C: 其他类别
D: 用户角色
答案: 用户包括 owner、group 和 other 类别。

下列()均属于Linux发行版本类

Ubuntu; Debian; Arch

10、 问题:虚拟机分为()
选项:
A:TYPE1
B:TYPE2
C:TYPE3
D:TYPE4
答案: 【TYPE1;
TYPE3】

float; double; long double

问题:浮点数类型有哪些?

12、 问题:指针的算数运算包括?
选项:
A:加
B:减
C:乘
D:除
答案: 【加;
减】

为了确保安全起见,Kali Linux的安装仅限于虚拟机环境中

14、 问题:Linux文本编辑器无法使用鼠标操作
选项:
A:正确
B:错误
答案: 【错误】

15、 问题:网卡在Linux中也以文件的形式存在
选项:
A:正确
B:错误
答案: 【正确】

16、 问题:Linux可以在路由器上
选项:
A:正确
B:错误
答案: 【正确】

错误

问题: VMware Workstation Pro性能优越,并属于TYPE1系列的虚拟机

18、 问题:C语言中,数组在内存中是连续的
选项:
A:正确
B:错误
答案: 【正确】

错误

问题:C语言中,在获得动态内存时可以直接被使用而无需进行类型转换操作

【作业】第三单元:大数据分析编程基础 第三单元作业

随着计算机技术的发展日益迅速,在PC端日益普及的是便捷高效的图形界面(GUI),而传统的命令行 CLI 依然发挥着不可替代的作用,请阐述 CLI 相对于 GUI 的优势与不足是什么?

高级语言的出现显著推动了软件工程的发展, 从而使得程序员能够迅速、有序地开发出功能更为强大的应用程序. 请阐述C语言相对于Python和Java的优势与不足, 并列举高级编程语言的共有特性.

第四单元:大数据分析计算方法 第四单元测试

问题:以下关于机器学习表述正确的是:
选项:
A: 机器学习是存储人类知识库的方式
B: 通过逻辑推理解决问题是机器学习
C: 人类神经元的工作机制被机器学习模仿
D:Aim at developing learning algorithms is the main research focus of machine learning
答案: 【机器学习的主要研究内容是学习算法

2、 问题:AGNES算法的时间复杂度?
选项:
A:O(n^2)
B:O(n)
C:O(e^n)
D:O(1)
答案: 【O(n^2)】

问题: Q学习算法的主体是什么?
选项:
A: 神经网络模型
B: 决策树模型
C: Q表
D: 贝叶斯网络模型
答案: 【Q表

36928

36928

题干

选项

铰链损失函数; 交叉熵损失函数; 指数损失函数

铰链损失函数、交叉熵损失函数、指数损失函数

聚类; 图像分割; 目标追踪

问题: Mean Shift算法可应用于
选项:
A选项为聚类分析
B选项为分类识别
C选项为图像分割技术
D选项为目标追踪算法
答案: 【聚类分析; 图像分割技术; 目标追踪算法

AdaBoost算法 ; GBDT算法; XGBoost算法

问题

Adaptive Boosting; 梯度提升决策树; 扩展的梯度提升技术

训练过程具有高度的并行化能力,在大数据时代能够显著提升大样本训练的速度; 采用随机采样的机制后,在生成模型时会使得模型方差较小且泛化能力较强; 在面对某些含有较高噪声水平的数据集时可能会导致过拟合现象的发生(在某些特定场景下)

9、 问题:KNN属于无监督学习
选项:
A:正确
B:错误
答案: 【错误】

信息增益标准更倾向于对属性数目较多的情况给予较高的权重

正确

该算法在聚类簇不再变化时终止运算

正确

正确

基于生成型系统可以获得判别型系统的参数估计值;然而仅凭判别型系统的输出难以恢复原始的生成型系统参数。

模型的欠拟合及过拟合问题都能够得到解决

【作业】第四单元:大数据分析计算方法 第四单元作业

问题:选择一种机器学习算法,并概述其工作原理及其优势与不足
评分规则: 【 原理占60%分数,优势占20%分数,不足占20%分数

有整体思路给4分, 详细设计给5分

有整体思路给4分,详细设计给5分

3、 问题:支持向量机的核心理念是什么?它主要针对哪些类型的任务进行分类?

问题:探讨延时神经网络与其他两种神经网络在区别与联系上的异同之处,并深入分析它们之间的共同特点

5、问题:概述主成分分析的基本概念,并同时探讨其优点与不足之处

第五单元:大数据分析计算平台 第五单元测试

Virtual Machine Monitor,VMM

请指出以下哪一个是虚拟机监视器的英文全称及缩写?
A:Virtual Machine Manager, VMM
B:Virtual Machine Monitor, VMM
C:Virtual Machine Keeper, VMK
D:Virtual Machine Controller, VMC
答案

图形处理

Flink用于处理数据流任务或子任务的是

独立监控模式; 混合模式; 宿主模式

独立监控模式; 混合模式; 宿主模式

类型一致; 相互独立; 计算密集

GPU针对的任务特点是:选项包括统一类型、内容丰富以及彼此独立;其中计算强度高是其显著特征。答案为统一类型、彼此独立以及计算强度高。

Checkpoint; State; Time

Checkpoint; State; Time

正确

正确

正确

问题

8、 问题:所有最新的GPU都可以使用cuda
选项:
A:正确
B:错误
答案: 【错误】

9、 问题:Flink只有SQL 有自动优化机制
选项:
A:正确
B:错误
答案: 【错误】

【作业】第五单元:大数据分析计算平台 第五单元作业

优缺点共答出3条给80%分数

从多个维度进行分析全虚拟化半虚拟化与硬件虚拟化的优缺点对比并附图示表格

问题陈述:详细探讨GPU与CPU的核心差异

3、 问题:请阐述Flink组件栈各层的功能
评分规则: 【 介绍3层给80%,介绍4层给100%分数

第六单元:大数据分析特征工程 第六单元测试

特征工程避免了手动提取特征的麻烦

该过程避免了繁琐的手动特征求取工作

在以下选项中,请指出不正确的说法:
A: 结构化数据的本质可以视为数据库的基础架构
B: 结构化数据通常采用表格形式来组织和存储
C: 非结构化数据缺乏统一的数据模型
D: 非结构化数据涉及一系列复杂的过程与技术手段
答案: 非结构化数据涉及一系列复杂的过程与技术手段

全校师生共一千名(其中男生占六百名 女生共有四百名) 现需从中选取十人为全校师生代表 请问应该采用哪一种抽样方法?

有缺失值对模型训练没有影响

当数据集中存在缺失值时, 对于模型训练的影响是什么

当数据集中存在缺失值时, 对于模型训练的影响是什么

在以下选项中,请判断哪一个不属于特征选择方法?
选项包括:
A: 基于过滤的方法
B: 嵌入式方法
C: 迭代式(正确答案)
D: 集成方法

filter; wrapper; embedding

filter; wrapper; embedding

滤法; 包裹法; 嵌入法

滤法; 包裹法; 嵌入法

题目:归一化方法用于以下哪些场景

8、 问题:特征降维的方法有:
选项:
A:LDA
B:PAC
C:MDS
D:LLE
答案: 【LDA;
MDS;
LLE】

人工填充;
平均值填充;
热卡填充;
KNN填充

常见数据处理中的数据填充值有哪些?
A. 手工填充值
B. 基于均值填充值
C. 温补法
D. 基于最近邻填充值

数据集类别不平衡问题可以通过以下哪些采样方法得到解决?
选项:
A:下采样
B:过采样
C:随机抽样
D:分层抽样
答案:【下采样;过采样

该编码方案主要通过bit-based方法使用哈希表结构来处理ID。

标准化处理能够增强模型计算效率,并且这一过程导致分类器准确性的提升。

13、 问题:数量级的差异会导致迭代收敛速度增加。
选项:
A:正确
B:错误
答案: 【错误】

该方法在注意到语义间的相似性方面表现优异

15、 问题:特征降维就是PCA
选项:
A:正确
B:错误
答案: 【错误】

16、 问题:特征选择等价于降维
选项:
A:正确
B:错误
答案: 【错误】

17、 问题:数据中缺失值的出现往往是可以避免的。
选项:
A:正确
B:错误
答案: 【错误】

【作业】第六单元:大数据分析特征工程 第六单元作业

问题:阐述欠采样与过采样方法的概念及其代表算法的具体流程。

从包含缺失值的数据集中选择一个实际案例,并利用Pandas库编写相应的Python代码来实现至少三种以上数据填充方法

确定分位数位置作为箱体边界的具体方法;阐述计算计算上限与下限的具体公式;详细说明如何判断并标记异常值的判定依据

问题:探讨归一化方法的优势及其相较于标准化方法的独特之处

第七单元:大数据分析工程实践 第七单元测试

根据词频...

本项目在将文字转换为数字特征的过程中进行操作。具体而言,在这个转换过程中每个词的编号情况是:
A选项表示编号是一个随机生成的整数;
B选项表示编号是一个随机生成的数值;
C选项表明频率高的词语会被赋予较小的编号;
D选项则指出频率高的词语会被赋予较大的编号;
答案是:【根据词频统计结果,在此系统中我们会将频率较高的词语分配较小的编码值

问题: 随机森林是Bagging的一个衍生方法,在生成基学习器时采用随机属性选择策略,并基于此构建基于Bagging的集成模型。
选项:
A:决策树
B:支持向量机
C:K近邻
D:朴素贝叶斯分类器
答案: 【决策树

该病毒可能导致的结果包括:
A: 导致磁盘发生污损
B: 导致该系统的功能丧失
C: 导致计算机内存芯片受损
D: 导致该设备无法正常运行

Deepwalk

问题

问题:自动提取摘要的主要方法有哪些?
选项:
A:基于关键词抽取的方法
B:基于文本拼接的技术
C:随机选取关键词的技术
D:基于生成模型的方法
答案: 【基于关键词抽取的方法; 基于生成模型的方法

实体的边界; 实体的类型

边界的准确性; 类型的一致性

在命名实体识别过程中, 评估其正确识别的关键因素是什么?

边界的准确性; 类型的一致性

开发简单,共享性强; 可以跨平台; 客户端零维护

B/S架构具有诸多优势特点:其一为易行性好且资源利用率高;其二运行效率高;其三兼容性好;其四无需客户端维护

特征提取; 特征选择; 特征构建

A选项代表的是通过特定算法从原始数据中提取有意义的低维表示;
B选项则指的是从大量候选特征中选择对模型性能有显著提升的关键属性;
C选项则是指利用特定的技术或模型构建新的表征形式;
D选项则侧重于将数据按照某种逻辑或指标进行分类整理。

在构建模型进行西尼罗河病毒预测后,在采用AUC指标对模型效果进行评估时,AUC值代表ROC曲线下所包围的面积,其数值越大表明模型的预测能力越强

错误

在对每个单词进行编码映射时,在本项目中所使用的词向量仅限于one-hot向量形式

正确

恶意代码检测主要分为基于代码编译状态的分析以及基于运行时行为的分析两种方法

正确

正确

答案

13、 问题:LGB模型使用level-wise策略生长树
选项:
A:正确
B:错误
答案: 【错误】

14、 问题:孪生网络的两部分模型参数需要不一致。
选项:
A:正确
B:错误
答案: 【错误】

【作业】第七单元:大数据分析工程实践 第七单元作业

每隔一段时间中国裁判文书网就会发布涵盖多个领域的法律文书信息,请问在实际操作中我们通常会采取哪些方法来识别不同法律文件之间的相似性?你能否详细列举出一篇典型法律文书中所包含的关键属性?以民间借贷纠纷案例为例,请具体说明这些重要特征包括哪些方面?

问题:集成学习在机器学习领域有着广泛应用,在解决NLP相关问题时也被成功融入其中。基于本系统中所涉及的集成学习思想,请阐述对集成学习的理解

以下是当前广泛使用的实体关系抽取模型及其优缺点,请您参考。

全部评论 (0)

还没有任何评论哟~