01.数据科学的简单介绍(概论)
前言:本文源自中国人民大学《数据科学概论》教材的第一章内容——数据科学概论。该章节深入探讨了核心概念,并对较为细致的知识点进行了归纳总结;有心的读者可以参考相关文献进一步理解相关内容。
文章目录
-
- 1.1数据科学的定义
-
-
- (1)数据科学
-
-
1.2 数据科学及其关联领域包括统计方法论、机器学习算法以及多学科交叉研究 * * * (1) 数据科学具有显著特点,在多学科交叉中展现出显著优势 *(2) 数据科学与数据库系统及大数据分析技术之间有着紧密而深入的关联 *(3) 以数据分析驱动决策已成为现代商业运营的关键策略之一
- 1.3数据科学家
- 1.4数据科学的基本原则
-
-
- (1)原则1:数据分析可以划分成一系列明确的阶段
-
- (2)原则2:描述性分析与预测性分析
- (3)原则3:实体的相似度
- (4)原则4:模型的泛化能力
- (5)原则5:分析结果的评估与特定的应用场景有关
- (6)原则6:相关性不同于因果关系
- (7)通过并行处理提高数据处理(分析)速度
- 1、任务并行:多个进程对数据进行处理
- 2、数据并行:依赖于数据的划分
-
1.5 数据处理过程:从横向维度来看
-
1.6 数据处理系统的结构组成
-
-
- (1)从纵向角度分析:
-
-
(2)主要采用以下三种处理模式:
-
(3)基于Λ型架构设计的系统框架
-
1.7数据的多样性:一种空间视角
-
-
- (1)三类数据
-
-
(2)不同数据在计算机里面的表示
-
1.8数据价值的挖掘:一种价值提升视角
-
-
- 数据价值的提升:
-
-
1.1数据科学的定义
(1)数据科学
数据科学被用来研究数据的本质与规律性;它被用来提取信息与知识;同时它构建了指导方针与支持体系的方法论基础。
数据科学的核心任务 是从数据中抽取信息、发现知识。
数据科学包含一组概念、原则、过程、技术/方法、工具 为其核心任务服务。
本节将探讨数据分析科学与统计方法在现代技术环境中的应用及其发展现状。具体而言,我们将研究智能算法与机器学习模型在提升数据分析效率方面的创新实践,并深入分析数据挖掘技术如何为业务决策提供支持。同时,本节还将详细讨论数据库管理及数据处理流程对大数据时代的适应性要求,以及基于大数据的战略决策如何优化企业运营策略
(1)数据科学跨学科的特点
数据科学是由计算机科学(包括数据库系统与数据分析技术)、统计学以及数学等多个相关领域共同构成的一门新兴交叉学科领域。通过整合统计理论与方法论研究前沿动态,在人工智能技术驱动下持续发展与完善
(2)数据科学与数据库、大数据分析的关系
数据库的运行,积累了大量的基础信息,为数据科学提供了重要的“原材料”。
大数据分析是(机器学习与数据挖掘),是数据科学的有效组成部分。
(3)数据科学与基于数据的决策的关系
基于数据的决策:人们依据数据分析的结果做出决策,并不仅仅仅仅依赖于直觉凭经验判断
主要目标是通过对数据进行分析以理解其本质,并提取有价值的信息。数据科学涵盖一系列基本的原则、过程以及相关的技术和方法或手段。
二者的关系:故数据科学是以决策为导向的服务性学科。它通过深入分析和提取出潜在的趋势和关系,并创造新的见解以帮助制定更为科学和有效的决策。
1.3数据科学家
数据科学家所需的技能:具备一系列的专业知识与技能,并且在以下几个方面具有专长:具备扎实的数学基础(可参考数据科学基础知识),掌握统计分析能力;能够熟练运用机器学习算法;具备数据分析技术;熟悉编程技能;深入理解特定行业或领域的专业知识;同时拥有优秀的跨部门协作与沟通能力。
1.4数据科学的基本原则
(1)原则1:数据分析可以划分成一系列明确的阶段
解析数据以获取知识,并为了解决具体的业务问题而成为数据分析的核心目标。该任务可划分为以下几个阶段:包括理解并整理业务相关数据信息;收集高质量的数据样本;整合分散的数据源;运用数据分析技术深入挖掘信息;通过可视化展示关键发现;最后将这些成果传达给目标受众。
(2)原则2:描述性分析与预测性分析
描述性分析 :面向过去,发现隐藏在数据表面之下的历史规律或模式。
基于未来的数据分析技术**(Predictive Analysis)**是一种先进方法,在深入挖掘现有数据资源的基础上构建分类与回归模型框架,并通过系统化的建模过程实现对未来发展趋势的精准预测
要点说明:简而言之而言之而言之而言之而言之而言之而言之
(3)原则3:实体的相似度
从大量的基础数据中,我们可能分析出变量之间的相关性。
(4)原则4:模型的泛化能力
某些实体在某些属性上相近,在被指出或其他可能存在的情况下通常也会有相像之处。
计算相似度是数据科学的基本方法。
(5)原则5:分析结果的评估与特定的应用场景有关
在现有的数据集上拟合得很好(实验结果),可能导致模型在新数据集上的预测效果不佳。----------过拟合

(6)原则6:相关性不同于因果关系
相关性:数据多了,a发生时b发生的概率足够明显,那么a和b就是相关的。
因果性:是逻辑上的概念,前者的出现必然导致后者,a发生导致b发生。
总结 :当我们从数据分析的结果中推断某些因果关系的存在时,在此过程中我们还必须注意一些额外的因素(可能是因为忽视了某些潜在的影响因素)。
(7)通过并行处理提高数据处理(分析)速度
程序=数据结构+算法
数据科学=数据+数据上的计算
1、任务并行:多个进程对数据进行处理
2、数据并行:依赖于数据的划分
将整个大规模数据集划分为若干个小数据集,并通过多线程/进程对这些分割后的数据块进行并行处理的过程中实现提高整体数据处理效率
1.5数据处理流程:一种横向视角
(1)数据的生命周期
包括数据的产生、数据的表示和保存、数据的销毁等各个阶段。
(2)冷数据和热数据
经常用到的数据叫热数据,暂时不用的历史数据是冷数据
(3)数据处理的流程
- 数据收集
- 数据表达与存储
- 数据清理 – 去除异常值
- 数据整合
- 数据分析法
- 可视化呈现
- 依据数据做出决策
1.6数据处理系统的架构
(1)一种纵向视角:
数据处理系统包括:硬件平台、存储、检索和分析、应用
(2)三种处理模式
- 批处理 :在系统中将数据首先被存储后进行整体分析(全量数据),其响应时间较长,通常以分钟或小时为单位。
- 流式处理 :系统能够实时接收并立即处理数据,在完成一次完整周期后不会进行存储操作;其响应时间短至秒级别。
- 交互式处理 :在部分数据情况下进行预存和查询操作,在完成一次完整周期后不会进行存储操作;其响应时间仅需以毫秒计算。
(3)Lambda架构
这三种不同的处理模式整合起来就是Lambda架构。
分为三个层次:
- 批处理层(Batch Layer)
- 实时处理层(Speed Layer)
- 服务层(Serving Layer)

1.7数据的多样性:一种空间视角
我们可以采集到很多的数据,类型丰富多样,我们把这些数据分成三类
(1)三类数据
1、结构化数据 :主要指的是符合关系数据模型的二维表数据。
2、半结构化数据 :涵盖多种包含带有标签的(Tag)的Web页面、XML文件以及Resource Description Framework 数据等。
3、非结构化数据 :包括文本数据、图数据以及各种多媒体数据。
(2)不同数据在计算机里面的表示
1、实体及其关系 :轨迹数据、时序数据可以用关系模型描述
2、文本 :布尔模型、TF、IDF、Embedding…
3、社交网络 :邻接矩阵、边列表、邻接关系列表…
1.8数据价值的挖掘:一种价值提升视角
数据价值的提升:
- 基础信息中存在大量原始样本(规模较大的数据集),其应用价值有限且可能存在潜在的异常值(错误或噪声数据)。
- 通过去噪处理(即所谓的"数据分析前处理"环节),可以获得精炼后的高质量样本库;同时多源异构信息的整合需求也需重点关注。
- 数据分析方法的发展轨迹大致可分为由浅入深几个阶段:首先是基础统计指标与可视化报告;随后是深入分析阶段中的分类预测模型构建以及关联性挖掘;最后则是高级别的人工智能辅助分析框架搭建。
- 经过系统化的深入挖掘能够提取出隐含于大数据中的基本规律性特征及其内在联系。
- 在发现普遍适用的基本规律后逐步提炼出更具概括性的知识体系。
