大数据导论
摘要
大数据是信息技术发展的新方向,其起源可追溯至1980年代末,经历了从传统信息技术到人工智能、云计算、物联网和生物医学的演进。大数据技术涵盖云计算、物联网、人工智能、数据安全、数据隐私、数据伦理、数据可视化等多个领域。云计算通过网络提供可伸缩的计算能力,物联网利用感知设备连接世界,人工智能通过数据驱动决策,大数据在这些技术中提供了支撑。大数据的应用广泛,涵盖医疗、金融、交通、制造、电子商务、城市规划、生物医学等多个领域。然而,大数据也面临挑战,如数据量大、处理复杂、价值密度低、数据孤岛、隐私泄露、数据安全、数字鸿沟等问题。大数据的目的是通过分析和利用海量数据,支持科学决策和优化业务流程。数据采集与预处理是大数据的基础,传统数据采集与大数据采集有显著差异,大数据采集强调高效、分布式和高容量。数据清洗、规范化、脱敏是预处理的关键步骤,确保数据质量。大数据存储与管理涉及分布式文件系统、Hadoop、NoSQL数据库等技术,提供高效、高可扩展的数据存储解决方案。数据处理与分析涵盖机器学习、协同过滤、流计算等技术,支持复杂数据的分析与决策。数据可视化通过图表展示数据,帮助用户发现模式和趋势,提升数据的可访问性和吸引力。大数据的未来发展依赖于技术创新和用户需求的平衡,以满足不断增长的数据处理和分析需求。
第一章-大数据概述
请阐述数据的基本类型
数据类型包括文本,图片,音频,视频等
数据组织形式包括五文件和数据库
请阐述把数据变得可用需要经过那几个步骤
数据清洗,数据管理,数据分析
请阐述人类IT发展史上3次信息化浪潮的发生时间、标志及其解决的问题
第一次:1980年前后,标志:个人计算机,解决问题:信息处理
第二次:1995年前后,标志:互联网,解决问题:信息传输
第三次:2010年前后,标志:互联网,云计算和大数据,解决问题:信息爆炸
请阐述信息科技是如何为大数据时代的到来提供技术支撑的。
存储设备容量不断增加
CPU处理能力大幅提升
网络宽带不断增加
请阐述人类社会的数据产生方式大致经历了哪3个阶段。
运营式系统阶段
用户原创内容阶段
感知式系统阶段
请阐述大数据发展的3个重要阶段。
萌芽期:数据挖掘理论和数据库技术逐步成熟
成熟期:web2.0
大规模应用期:大数据应用渗透各行各业
请阐述大数据的“4V”特性。
4v:数据量大,数据类型繁多,处理速度快,价值密度低
请阐述大数据对科学研究有什么影响。
实验科学,理论科学,计算科学,数据密集型科学
请举例说明大数据的应用。
工业,财政,汽车业,网络,饮食业,通信,能源行业,物流业,城市管理,生物医学领域,体育与娱乐,安全领域,个人生活领域
请阐述高校大数据专业的知识体系。
数据采集与预处理
数据存储与管理
数据处理与分析
数据可视化
第二章-大数据与其他新兴科技的关系
请阐述云计算的概念
云计算支撑网络,提供弹性扩展的云服务,这些服务具备低成本、高效率的特点。用户即可在具备网络接入条件的任何位置,即可获得所需的各种IT资源。
请阐述云计算有哪几种服务模式和哪几种类型。
服务模式:基础设施即服务,平台即服务,软件即服务
类型:公有云,私有云,混合云
请阐述什么是数据中心和数据中心在云计算中的作用。
数据中心是云计算的基础支撑平台,为云计算提供计算资源、存储资源以及宽带接入资源,为众多平台和应用系统构建运行环境。
数据中心里的CPU,内存,磁盘,宽带等it资源汇集成一个庞大的it资源池
请举例说明云计算有哪些典型的应用。
应用:电子政务,教育,企业,医疗
请阐述物联网的概念和物联网各个层次的功能。
物联网是万物互联的网络,是互联网的延伸。通过新型连接方式,将传感器、控制器、机器、人员或物实现人与物、物与物之间的连接,最终达成智能化管理与远程监控。
四个层次:感知层,网络层,处理层,应用层
请阐述物联网有哪些关键技术。
识别感知技术
网络领域中,涉及通信领域,并附带链接:
数据挖掘与融合技术
请阐述大数据与云计算、物联网的相互关系。
大数据技术为物联网数据分析提供支撑,物联网是大数据的重要来源
物联网拓展了云计算技术的应用领域,云计算则为物联网实现了大规模数据存储能力。
云计算为大数据提供了技术基础,大数据为云计算提供用武之地
大数据技术主要体现在对海量数据的存储与管理、数据的挖掘与解析以及对数据的深入分析,从而提炼其潜在价值,被应用于生产和生活。
云计算旨在整合优化各种IT资源,并通过网络以服务的方式,以低成本提供给用户。
物联网的发展目标是实现“物物相连”,应用创新是物联网发展的核心
请阐述人工智能的概念。
人工智能属于一门新兴的技术学科,其研究领域主要集中在开发用于模拟、延伸和拓展人类智能的理论、方法、技术和应用系统。
请阐述人工智能有哪些关键技术。
机器学习,知识图谱,自然语言处理
人机交互界面,计算机视觉技术(人脸识别技术,图像检索系统,游戏和控制模块,监控系统,智能汽车领域),生物特征识别技术
AR/VR(虚拟现实/增强现实)
请阐述人工智能与大数据的关系。
联系:
人工智能需要数据来建立其智能,特别是机器学习
大数据技术为人工智能提供了强大的存储能力和计算能力
区别:
智能计算系统是一种智能计算方式,它能够具备认知功能,传统数据处理方式是一种传统计算,它不会主动根据结果做出反应,只是进行数据的收集和分析。
二者旨在实现的目标和实现目标的途径各异,大数据的核心任务是通过对比分析数据来掌握规律、推导出更优的方案。
人工智能的开发结果是为实现更高效地完成具体任务或辅助或指导我们做出决策提供了技术支持。
请阐述区块链的概念以及区块链和比特币的关系。
区块链基于块链数据结构实现数据验证和存储功能,通过分布式节点达成共识来生成和更新数据,采用密码学手段确保数据传输和访问的安全性,形成了一种全新的分布式基础架构与计算范式。
基于区块链(数据结构+哈希函数),确保账本内容无法被篡改;同时,利用数字签名技术,仅自己能够访问和使用自己的账号。
采用p2p网络和pow共识机制,保证去中心化的运作方式
请阐述区块链是如何解决防篡改问题的。
引入哈希函数,区块链
请阐述区块链和大数据的关系。
区别:
数据量,结构化和非结构化,独立和整合
直接和间接,CAP理论,基础网络
价值来源,计算模式
联系:
区块链式使大数据极大降低信用成本
区块链是构建大数据时代的信任基石
区块链是促进大数据价值流通的管道
第三章-大数据基础知识
请阐述传统数据安全体系面临的主要威胁主要有哪些。
计算机病毒
黑客攻击
数据信息存储介质的损坏
请阐述大数据安全与传统数据安全的不同
大数据成为网络攻击的显著目标
大数据加大隐私泄露风险
大数据技术被应用到攻击手段中
大数据成为高级可持续攻击的载体
请列举几个大数据安全问题的实列
隐私和个人信息安全问题
国家安全问题
棱镜门事件
免费WiFi窃取用户信息,收集个人信息的探针盒子
请阐述机械思维的核心思想。
世界变化的规律是确定的
因为有确定性做保障
这些规律应该是放之四海而皆准的
请阐述大数据时代为什么需要新的思维方式。
不确定性在我们生活的世界里无处不在,世界的本质是数据
请阐述大数据时代人类思维方式的转变主要体现在哪些方面。
全样而非抽样,效率而非精确,相关而非因果
以数据为中心,我为人人,人人为我
请根据自己的生活实践举出一个大数据思维的典型案例。
请阐述大数据伦理的概念。
伦理包含规则和道理,即作为人类社会的总体,所应遵循的行为规范和行事准则,强调人与人之间的关系以及人与社会的关系。
科技伦理主要涉及科学创新活动与应用技术中的道德规范和行为准则,涵盖一种观念与概念上的道德哲学思考。
大数据伦理问题,就属于科技伦理的范畴
请列举大数据伦理的相关实例。
大麦网"撞库"事件,大数据杀熟,隐形偏差问题,信息茧房,
请阐述大数据伦理问题具体表现在哪些方面。
隐私泄露风险,数据安全威胁,数字鸿沟现象,数据集中化,数据垄断现象,数据真实性和可靠性,人的主体地位问题
请阐述什么是“数字鸿沟”问题。
数据鸿沟往往反映信息时代的失衡,大数据技术的诞生并未导致数据鸿沟的弥合,涉及公平性与公正性的问题。
请阐述什么是“数据独裁”问题。
数据独裁是指在数据时代,由于数据量的爆炸式增长,使得决策的难度显著上升,迫使人们必须完全依赖数据的预测和结论才能做出最终的决策。
请阐述什么是“数据垄断”问题。
数据可能造成进入壁垒或扩张壁垒
是拥有大数据形成市场支配地位并滥用
数据产品而形成市场支配地位并滥用
涉及数据方面的垄断协议
数据资产进行收购
请阐述什么是“人的主体地位”问题。
数据采集、传输、存储与处理技术持续创新,在万物皆数据的时代背景下,人类主体地位面临前所未有的挑战,因为人类自身亦可被数字化处理成为可能。
请阐述什么是政府数据孤岛问题。
数据互联互通,共享机制与互用平台间的协同存在明显的障碍。在政府各部门在建设数据库过程中,采用的技术体系、平台架构及网络标准之间存在显著差异。
请阐述什么是企业数据孤岛问题。
所有数据被分散在各个系统中,使得整个业务流程呈现出错综复杂的状态。在此背景下,信息共享与反馈机制的建立面临诸多挑战,而数据孤岛问题不仅影响了企业的信息化进程,更是其信息化建设中的核心障碍。
请阐述政府数据孤岛产生的原因。
认为占有就是财富,热衷于搜集,但不愿共享
数据标准,系统接口等技术原因
未能建立完善的顶层设计体系,使得各条线、各部门固有的本位主义体现为壁垒森严,数据流通受阻。
请阐述企业数据孤岛产生的原因。
以功能为标准的部门划分导致数据孤岛
不同类型,不同版本的信息化管理系统导致数据孤岛
请阐述消除数据孤岛对政府和企业的重要意义。P97
请阐述政府开放数据的理论基础。
数据资产理论,数据权理论,开放政府理论
请阐述政府信息公开与政府数据开放的联系与区别。P106
请阐述政府数据开放的重要意义。
政府开放数据有利于促进开放透明政府形成
有利于创新创业和经济增长
有利于社会治理创新
请阐述交易平台包括哪些类型。
综合数据服务平台和第三方数据交易平台
请阐述交易平台的数据来源有哪些。
政府公开,企业内部,数据供应方,网页爬虫
请阐述交易平台的产品类型有哪些。
API,数据包,云服务,解决方案,数据定制服务,数据产品
请举例说明交易平台的运营模式。
兼具中介和数据处理加工功能的交易平台
只具备中介功能的交易平台
. 请列举几个具有代表性的大数据交易平台。
贵阳大数据中心,上海数据中心,华东江苏大数据中心,浙江大数据中心
第四章-大数据应用
请阐述什么是长尾理论。
推荐系统通过挖掘用户的使用历史数据,识别用户的个性化需求偏好,分析用户潜在的消费趋势,从而精准地将长尾商品推荐给可能需要它的用户群体,帮助用户发现感兴趣但不易被察觉的商品,最终实现用户与商家的双赢
推荐系统的核心在于构建用户与商品之间的联系网络,基于不同的推荐算法,请描述推荐方法可以分为哪几种类型。
专家推荐,基于统计的推荐,基于内容的推荐
协同过滤推荐,混合推荐
请阐述推荐系统的组成模块。
用户建模模块,推荐对象建模模块,推荐算法模块
请阐述大数据在生物医学领域有哪些典型应用。
流行病预测,智慧医疗,生物信息学
请阐述智慧物流的概念和作用。
智慧物流也被认为是智能化物流。通过智能化技术的应用,物流系统能够模拟人类的智慧,具备模拟人类思维、感知能力,通过学习和推理判断来自主解决物流中的问题。这种能力的实现,不仅能够实现物流资源的优化调度和合理配置,还能够推动物流系统的效率提升,构建现代化的物流管理模式。
作用:提高物流的信息化和智能化水平
降低物流成本和提高物流效率
提高物流活动的一体化
请阐述大数据在城市管理领域有哪些典型应用。
智能交通,环保监测,城市规划,安防,疫情防控
请阐述大数据在金融领域有哪些典型应用。
高频交易,市场情绪分析,信贷风险分析,大数据征信
请阐述大数据在零售领域有哪些典型应用。
发现关联购买行为,客户群体细分和供应链管理
请举例说明大数据在体育和娱乐领域的典型应用。
训练球队,投拍影视作品,预测比赛结果
请阐述大数据在安全领域有哪些典型应用。
大数据与国家安全
应用大数据技术防御网络攻击
警察应用大数据工具预防犯罪
第五章-数据采集与预处理
请阐述传统数据采集与大数据采集的区别
| 传统数据采集 | 大数据采集 | |
|---|---|---|
| 数据源 | 来源单一,数据量相对较少 | 来源广泛,数据量巨大 |
| 数据类型 | 结构单一 | 数据类型丰富,包括结构化,半结构化和非结构化数据 |
| 数据存储 | 关系数据库和并行数据仓库 | 分布式数据库,分布式文件系统 |
请阐述数据采集的三大要点。
全面性,多维性,高效性
请阐述数据采集的数据源有哪些。
传感器数据,互联网数据,日志文件,企业业务系统数据
请阐述典型的数据采集方法有哪些。
系统日志采集,分布式消息订阅分发,ETL,网络数据采集
请阐述什么是网络爬虫。
网络爬虫属于自动获取网页信息的程序,它为搜索引擎获取万维网上的网页内容,是搜索引擎不可或缺的重要组成部分。
请阐述网络爬虫的组成。
控制节点,爬虫节点,资源库
请阐述网络爬虫的类型。
通用网络爬虫,聚集网络爬虫,增量式网络爬虫,深层网络爬虫
请阐述Scrapy爬虫的体系架构。
该系统由多个关键组件构成,包括Scrapy核心引擎、网络爬虫系统、数据下载模块、任务调度系统、数据流处理管道、网络下载组件、数据采集引擎以及中间件组件。其中,项目管道主要负责数据的前后端对接,而中间件组件则起到组件间通信桥梁的作用。
请阐述数据清洗的主要内容。
缺失值(估算,编码和录入误差),异常值,数据类型有误的数据和重复值处理
请阐述数据清洗的注意事项。
在数据清洗过程中,建议首先进行缺失值、异常值以及数据类型的转换操作,最后处理重复值问题,以确保数据质量。
在处理缺失值和异常值时,处理方式需依据业务需求确定,这些处理方式并非固定不变。
在进行数据清洗之前,最优先的步骤是审查数据表。需要熟悉数据表的架构以及检视需要处理的关键数据,才能确保数据清洗工作彻底完成。
数据量的大小也关系着数据的处理方式
在导入数据表后,通常会依次对各列进行清理工作,以确保数据处理的全面性和完整性。
请阐述数据转换包括哪些策略。
平滑处理,聚集处理,数据泛化处理,规范化处理,属性构造处理
请阐述数据规范化包含哪些方法。
Min-Max规范化,Z-Score规范化和小数定标规范化
请阐述数据脱敏的原则。
在保持原有数据特征的基础上,确保数据间的统一性,遵循业务关联规则的关联性,多轮脱敏数据间的数据一致性要求。
请阐述数据脱敏的方法。
数据替换,无效化,随机化,偏移和取整,掩码屏蔽,灵活编码
第六章-数据存储与管理
试述传统的数据存储与管理技术有哪些
传统:文件系统,关系数据库,数据仓库和并行数据库
大数据:分布式文件系统,NewSQL和NoSQL数据库,云数据库
试述关系数据库有哪些特性。
存储方式,存储结构,存储规范,扩展方式,查询方式,事务性,连接方式
试述数据仓库有哪些特性。
面向主题,集成,相对稳定,放映历史变化
数据仓库系统包含数据源,数据存储和管理,OLAP服务器,前端工具和应用
试述Hadoop具有哪些特性。
高可靠度、高效率、良好的可扩展性、高容错能力及低成本,基于Linux操作系统,且兼容多种编程语言。
试述Hadop生态系统及其每不部分的具体功能。
HDFS,HBase , MapReduce, Hive, Pig, Mahout, Zookeeper,Flume,Sqoop,Ambari
试述HDFS的设计要实现哪些目标。
采用经济实惠的硬件配置,支持流式数据读写操作,处理大规模数据集,基于简单文件系统的模型设计,具备良好的跨平台兼容能力。
试述HDFS中的名称节点和数据节点的具体功能。
改写说明
数据节点:负责处理文件系统客户端的读或写请求
阐述这四种数据库各自适用的场景及其优缺点。键值型数据库适用于需要快速查询和高效存储键值对的数据;列族型数据库适合处理复杂类型数据和高冗余场景;文档型数据库 ideal for semi-structured data like JSON 和 XML;图形型数据库则擅长处理复杂关系数据和社交网络分析。
键值数据库
| 项目 | 描述 |
|---|---|
| 相关产品 | Redis,Riak,SimpleDB,Chordless,Scalaris,Memcached |
| 数据模型 | 键值对 |
| 典型应用 | 内容缓存,如会话,配置文件,参数,购物车等 |
| 优点 | 扩展性好,灵活性好,进行大量写操作时性能高 |
| 缺点 | 无法存储结构化信息,条件查询效率低 |
| 使用者 | 百度云数据库(Redis),GitHub(Riak) |
列族数据库
| 项目 | 描述 |
|---|---|
| 相关产品 | Bigtable,HBase,Cassandra,HadoopDB |
| 数据模型 | 列族 |
| 典型应用 | 分布式数据存储与管理 |
| 优点 | 查找速度快,可扩展性强,容易进行分布式扩展,复杂性低 |
| 缺点 | 功能较少,大多不支持强事务一致性 |
| 使用者 | EBay,INstagram |
文档数据库
| 项目 | 描述 |
|---|---|
| 相关产品 | CouchDB,MongoDB,Terrastore等 |
| 数据模型 | 版本化的文档 |
| 典型应用 | 存储,索引并管理面向文档的数据或者类似的半结构化数据 |
| 优点 | 性能好,灵活性高,复杂性低,数据结构灵活 |
| 缺点 | 缺乏统一的查询语法 |
| 使用者 | 百度云数据库,SAP等 |
图数据库
| 项目 | 描述 |
|---|---|
| 相关产品 | Neo4j,OrientDB等 |
| 数据模型 | 图结构 |
| 典型应用 | 可用于大量复杂,互连接,低结构化的图结构场合,如社交网络,推荐系统等 |
| 优点 | 灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱 |
| 缺点 | 复杂性高,只能支持一定的数据规模 |
| 使用者 | Adobe(Neo4j),cisco |
试述云数据库的概念。
云数据库是部署在云计算环境中的虚拟化数据库
云数据库有哪些特性?
动态可扩展,高可用性,较低的使用代价,易用性,高性能,免维护,安全
试述云数据库与其他数据库的关系。
基于关系数据模型,Nosql数据库基于非关系数据模型,二者归类于不同的数据库技术,云数据库并非如此,而是通过提供数据库功能服务的方式实现的。
举例说明云数据库厂商及其代表性产品。
传统的数据库厂商:Teradata,Oracle等
涉足数据库市场的云数据库厂商:Amazon,Google,阿里,百度等
新兴厂商:Vertica,LongJump等
试述在Hadoop体系架构中 HBase与其他组成部分的相互关系。
HBase利用Hadoop MapReduce来处理HBase中海量数据,实现高性能计算,
利用Zookeeper作为协同服务,实现稳定服务和失败恢复
基于Hadoop Distributed File System构建一个高可靠性的基础数据存储架构,通过经济集群实现海量数据存储能力的提升。
请以实例说明HBase数据模型。
HBase 实际上是一个稀疏、多维且持久化的映射表,通过行键、列族、列限定符以及时间戳实现索引,每个值均为未经过解释的字节数组 byte[]。
分别解释 HBase中行键、列键和时间戳的概念。
行键:每个HBase表都由诺干行组成,每个行有行键来标识
列键:一个Hase表被分组成许多列族的集合,它是基本的访问控制单元
每个数据单元格都维护着同一份数据的多个备份,这些备份被时间戳所标识。
试述HBase的系统架构及其每个组件的功能。
客户端,zookeeper服务器,master主服务器,region服务器
试述Spanner服务器的组织方式。
spanner是一个可扩展的,全球分布式的数据库
第七章-数据处理与分析
试述数据分析的概念及其与数据处理的关系。P201-202
试述机器学习的概念及其与数据挖掘的关系。P203
试述常见的机器学习和数据挖掘算法有哪些。
分类,聚类,回归分析和关联规则(Apriori和FP-Growth)
试述协同过滤算法有哪些种类。
基于用户协同过滤:最古老的算法
基于物品的协同过滤:应用最多的算法
基于模型的协同过滤:前两者混合
试述典型的大数据处理与分析技术有哪几种类型,并给出代表性产品。
| 大数据处理与分析技术类型 | 解决问题 | 代表性产品 |
|---|---|---|
| 批处理计算 | 针对大规模数据的批量处理 | MapReduce Spark |
| 流计算 | 针对流数据的实时计算 | Flink,Storm Spark Streaming , |
| 图计算 | 针对大规模图结构数据的处理 | Pregel Giraph |
| 查询分析计算 | 大规模数据的存储管理和查询分析 | Dremel,Hive |
试述流计算的概念及其处理流程。
实时从多源数据平台获取海量流数据,进行实时分析和处理,提取具有价值的信息,数据价值随着时间推移逐渐减少。
传统数据流程:存储数据是旧的,需要用户主动发出查询
流计算数据处理流程:首先进行实时数据收集(Agent,Collector,Store),随后进行数据实时处理,最后提供实时响应查询服务。
试述通用的图计算软件有哪几种。
基于遍历算法的,实时图数据库:Neo4j,OrientDB
以图顶点为中心的,基于消息传递批处理的并行引擎:Hama,Giraph
该并行图处理系统基于BSP模型实现,而BSP模型则被称为大同步模型。该系统由三个核心组件构成:局部计算单元、通信网络和栅栏同步机制。
试述MapReduce的工作流程。P213
试述MapReduce有哪些不足之处。
表达能力有限,磁盘IO开销大,延迟高
请将数据仓库Hive和传统数据库进行对比分析。
| 特性 | Hive | 传统数据库 |
|---|---|---|
| 查询语言 | HQL | SQL |
| 数据存储位置 | HDFS | Raw Device |
| 数据格式 | 用户定义 | 系统决定 |
| 数据更新 | 不支持 | 支持 |
| 索引 | 无 | 有 |
| 执行 | MapRedcue | Executor |
| 执行延迟 | 高 | 低 |
| 可扩展性 | 高 | 低 |
| 数据规模 | 大 | 小 |
试述数据仓库Hive的体系架构。
用户接口模块,驱动模块,元数据存储模块
试述Spark 相对于MapReduce的优点。
Spark的计算模式属于Map Reduce范式,但不局限于仅依赖Map和Reduce组件。它还提供了多种数据集操作类型,其编程模型相较于MapReduce更加灵活。
通过内存计算机制, spark实现了中间结果的内存存储,显著提升了迭代计算的效率。
spark基于DAG的任务调度执行机制,要优于Map Reduce的迭代执行机制
试述Spark与Hadoop的关系。
计算资源按需伸缩
不同负载应用混搭,集群利用效率高
共享底层存储,避免数据跨集群迁移
试述Spark的体系架构包含哪些组件。
sparkCore、数据建模语言、流式计算框架、结构化流数据框架、机器学习库和图计算扩展等其他组件
试述Spark的部署方式有哪几种。
local模式:主要应用于本地环境下的功能测试。具体包括以下两种类型:local单线程和local-cluster多线程。
在集群模式下,通常采用Mater/slave模式,值得注意的是,master节点具有单点故障特性。Spark采用ZooKeeper协议来实现高可用性。
在 yarn 集群模式下,该系统基于 yarn 资源管理框架运行,yarn 负责资源分配与调度,而 Spark 则负责任务调度与计算资源分配。
基于mesos集群模式,该系统由mesos负责资源管理,确保资源的高效利用,同时由Spark负责任务调度和计算逻辑的实现。
在云(分布式计算模式)下,例如AWS的EC2,可以在该模式下方便地访问 Amazon S3。Spark 支持多种分布式存储系统,包括HDFS和S3。
试述为什么推出Spark SQL
Spark SQL能够支持相应的数据操作接口,能够对内部数据源和外部数据源执行各种关系操作。
其次,该系统能够整合大量的数据源和分析算法,通过集成使用Spark SQL和Spark MLlib来实现数据处理和分析。
传统关系数据库的结构化数据管理能力与机器学习算法的数据处理能力具有充分支持各种复杂的应用需求的能力。
试述 Spark Streaming的基本原理
Spark Streaming将实时输入数据流按照时间片Δt(例如1秒的时间片)分割成数据块。Spark Streaming将每一块数据作为RDD,并对每一块数据进行处理。每个数据块都会触发一个Spark作业处理,最终处理结果返回多块数据。
试述 Structured Streaming有哪几种处理模型。
微批处理,持续处理,默认使用微批处理模型
请将 Structured Streaming 和 Spark SQL、Spark Strcaming 进行对比分析。
| Spark Strcaming | Spark SQL | Structured Streaming |
|---|---|---|
| Spark Streaming是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行实时的处理 | 一致的 API。由于和 Spark SQL 共用大部分 API,对 Spaprk SQL 熟悉的用户很容易上手,代码也十分简洁。同时批处理和流处理程序还可以共用代码,不需要开发两套不同的代码,显著提高了开发效率。 | 简洁的模型。Structured Streaming 的模型很简洁,易于理解。用户可以直接把一个流想象成是无限增长的表格。 |
| 把流式计算当作一系列连续的小规模批处理来对待!其实就是用批处理(小批次)的思想来做流处理 | 卓越的性能。Structured Streaming 在与 Spark SQL 共用 API 的同时,也直接使用了 Spark SQL 的 Catalyst 优化器和 Tungsten,数据处理性能十分出色。此外,Structured Streaming 还可以直接从未来 Spark SQL 的各种性能优化中受益。 | 多语言支持。Structured Streaming 直接支持目前 Spark SQL 支持的语言,包括 Scala,Java,Python,R 和 SQL。用户可以选择自己喜欢的语言进行开发。 |
试述Spark MLlib的功能以及它提供了哪些工具。
算法工具:常用学习算法。如分类,回归,聚类和协同过滤
特征化工具:特征抽取,转化,降维和选择工具
流水线:用于构建,评估和调整机器学习工作流的工具
持久性:保持和加载算法,模型和管道
实用工具:线性代数,统计,数据处理等工具
试述 TensorFlowOnSpark的 Spark应用程序包括哪几个基本过程。
配置:为每个Executor进程预留,搭建TensorFlow集群,并配置数据和控制消息的监听机制。
启动:在每个Executor进程上启动Tensor Flow程序
训练/推理:在Tensor Flow集群上完成模型的训练/推理
关闭:关闭Executor进程上的Tensor Flow程序。释放相应的系统资源
请画出Storm的集群架构并加以简要说明。P234
试述Storm的工作流程。
客户端提交Topology到Storm集群中
Nimbus将分配给Supervisor的任务写入Zookeeper
Supervisor从Zookeeper中获取所分配的任务,并启动worker进程
worker进程执行具体任务
请对 Spark Streaming和Storm进行简要对比。
在功能实现方面,Spark Streaming与Storm之间存在显著差异。具体而言,Spark Streaming相对而言在处理速度上存在明显限制,而Storm则能够实现毫秒级的流计算能力。
Spark Streaming is built upon Spark, supporting real-time processing, Storm data sets are more conducive to efficient fault-tolerant handling.
Spark Streaming基于小批量处理机制,从而支持处理逻辑和算法的统一。
试述为什么流计算场景比较适合采用Flink。
Flink支持增量迭代计算,具有对迭代计算进行自动优化的功能
Flink是一行一行地处理数据,支持毫秒级反应
试述Flink的体系架构包含哪些组件。
JobManager和TaskManager
试述Beam的设计目标。
为开发者设计一个友好且易于使用的强大数据并行处理模型,该模型不仅支持流处理和批处理功能,同时在多个运行平台上均能稳定运行。该模型具备强大的处理能力,能够高效地完成数据并行处理任务。
试述查询分析系统Dremel具有哪些特点。
Dremel是一个大规模,稳定的系统
Dremel是MapReduce交互式查询能力不足的补充
数据模型是嵌套的
数据是用列式存储的
结合了web搜索和并行DBMS的技术
第八章-数据可视化
试述数据可视化概念
数据可视化技术是一种将复杂多样的大型数据集中的信息通过图形和图像的形式进行呈现,并借助数据分析技术和开发工具,识别和解析潜在的未知信息的过程。
试述数据可视化的重要作用
观测,跟踪数据,分析数据,辅助理解数据,增强数据吸引力
常见的统计图表有哪些类型?给出每种类型的具体应用场景
| 图表 | 维度 | 应用场景 |
|---|---|---|
| 柱状图 | 二维 | 指定一个分析轴进行数据大小比较,只需要比较其中一维 |
| 折线图 | 二维 | 按时间序列分析数据的变化趋势,适用于较大的数据集 |
| 饼图 | 二维 | 指定一个分析轴进行所占比列的比较,只适用于反映部分于整体的关系 |
| 散点图 | 二维或三维 | 有两个维度需要比较 |
| 气泡图 | 三维或四维 | 其中只有两维能够精神辨识 |
| 雷达图 | 四维以上 | 数据点不超过6个 |
漏斗图:适用于业务流程比较规范,周期长,环节多的流程分析
树图:利用包含关系表达层次化数据的可视化方法
热力图:一种独特视觉标记方式,用于呈现用户偏好突出的页面版块及其对应的地理分布图示。
关系图:基于3D空间中的点线结合
词云:通过构建关键词云结构并进行关键词视觉呈现,对网络文本中出现频率较高的关键词,通过视觉化处理。
日历图:以日历为基本维度的,对单元格加以修饰的图表
可视化工具主要包含哪些类型?各自的代表性产品有哪些?
入门级工具:Excel
信息图表工具:Google chart API,Echarts,D3,Tableau,大数据魔镜
地图工具:Google Fusion Tables,Modest Maps,Leaflet
时间线工具:TImetoast,Xtimeline,
高级分析工具:R,python,weka,Gephi
请举出几个数据可视化的有趣案列
全球网络安全事件的动态变化,网络空间可视化图谱,编程语言影响力网络关系图,国家健康与经济实力的相互关联,三维网络空间可视化应用
