数据分析和数据挖掘的概念和理念
- 数据分析技术与数据挖掘方法的理论基础与内涵
- 数据分析方法与数据挖掘技术的阶段划分
- 数据分析方法与Data Mining体系的构建体系
1.1数据分析及数据挖掘的定义:
数据分析
数据分析主要涉及通过应用科学的统计手段对收集来的大量数据进行分析处理,并识别出其中有价值的信息内容;随后通过深入分析并综合归纳数据特征进而得出合理的结论这一完整的过程。
数据挖掘
数据挖掘是通过大量数据存储库中自动化地 发现有用信息的过程。作为KKD( 数据库中知识发现 )的重要组成部分。
数据库中知识发现
输入数据➡**数据预处理**➡**数据挖掘**➡**后处理** ➡信息
-
数据预处理 :
特征选取
维归约
规范化
选取数据子集 -
后处理
模式过滤
可视化
模式表现
1.2数据分析与数据挖掘的差异:
数据挖掘及数据挖掘都是“投入数据,产出信息 ”的过程,有很多相同之处。
| 数据分析 | 数据挖掘 |
|---|
| 理论基础 | 统计学与数据库管理相关的知识体系
(统计学与概率论及数理统计学基础、多元统计分析方法及其应用) | 需要更强的计算机科学背景
(包括Java编程基础及Linux操作系统原理) |
| 数据量级 | 基于抽样方法处理较小规模的数据 | 大数据技术挑战 |
|---|
相关工具 | 关注应用场景
办公软件(Excel)、关系型数据库查询语言(SQL)
可选:统计分析软件(SPSS)、数据编程语言(R)、通用目的编程语言(Python)、数据分析与挖掘平台(SAS)等
更注重算力优化(如MapReduce算法)、存储优化(如Hadoop分布式文件系统HDFS)以及算法优化(如Spark框架)
2.1数据分析与挖掘的层次
| 报表与查询 | 多维分析与警报 | 统计分析 | 预测及建模 | 优化 |
|---|
能够定期输出日报、周报等数据报表,并为管理层提供决策支持。
通过钻取分析技术层层剥笋发现问题根源,并通过警报机制提前识别潜在风险。
运用多种统计分析方法(如频数分析、回归分析、相关性分析、聚类分析及因子分析)深入挖掘历史数据中的潜在原因并总结规律。
通过趋势性分析(如时间序列分析及面板数据分析)理解未来发展趋势及其对业务的影响。
综合考虑资源投入与需求匹配情况,在保证服务质量的前提下实现业务价值最大化优化。
3.1数据分析及挖掘三要素
- 数据处理工具
-
数据获取:
Mysql、ORACLE、HIVE -
数据预处理:
Excle、PPT -
数据分析或挖掘:
Python、SPSS、R -
可视化:
Spark、Tableau
思维
数据分析两种逻辑:“树,田”
MECE分析法
MECE原则(即相互独立与完全穷尽)是麦肯锡式思维方法的核心要素。
其中,“相互独立”这一原则要求问题划分必须基于单一维度且具有明确界限,彼此之间不发生重叠。“完全穷尽”这一要素则强调了涵盖所有可能性与彻底性分析的重要性。
SWOT矩阵分析
态势分析法是一种系统性研究方法
它旨在识别与研究对象密切相关的主要内部资源与外部机会与威胁等关键要素
通过系统调查的方法列出并按矩阵形式排列这些要素
随后运用系统分析理论对各要素进行匹配组合从而深入剖析其内在逻辑关系
最终得出具有决策参考价值的一系列结论
理论
数据分析及挖掘的理论框架— 总、分、总

