Advertisement

大数据分析与挖掘笔记(1)

阅读量:

第一章 绪论
大数据特点:4V
容量Volume 多样性Variety 速度Velocity 价值Value

数据分析时用适当的统计分析方法,对收集来的大量数据进行分析,提取有用信息和形成结论并对数据加以详细研究和概括总结的过程。
分为三个层次:
描述分析,预测分析,规范分析
大数据分析时指对规模巨大的数据进行分析,是从大数据到信息、再到知识的关键步骤
数据挖掘是指从数据集合中提取人们感兴趣的知识,这些知识是隐含的,事先未知的,潜在有用的信息。
提取出来的知识一般可表示为概念、规则、规律、模式等形式。

大数据分析和挖掘的步骤:
1 任务目标的确定
2 目标数据集的提取
3 数据预处理
4 建立适当的数据分析和挖掘模型
5 模型的解释和评估
6 知识的应用

数据挖掘的主要功能
1 对数据的统计分析与特征描述
2 关联规则挖掘和相关性分析
3 分类与回归
4 聚类分析
5 异常检测或离群点分析

大数据分析与挖掘工具
1 Sklearn
对于一些常用的机器学习方法进行封装,只需要简单的调用Sklearn里的模块就可以实现大多数机器学习任务。
机器学习任务包括:
分类 回归 聚类 数据降维 数据预处理
常用的分类器:
KNN 贝叶斯 线性回归 逻辑回归 决策树 随机森林 GBDT

2 Spark ML
通用内存并行计算框架,常用于构建大型的、低延迟的数据分析应用程序。
目前spark已经拥有了实时计算、批处理、机器学习算法库、SQL、流计算等模块。
MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、降维等,同时还包括底层的优化原语和高层的管道API。主要包括以下具体内容:
(1)算法:常用机器学习算法
(2)特征处理工具:特征提取、转化、降维和属性选择工具。
(3)管道:用于构建、评估和调整机器学习流程的工具。
(4)持久性:保存和加载算法、模型和管道。
(5)实用工具:线性代数、统计、数据处理等。

第二章 数据特征分析与预处理
数据集类型:
1 结构化数据:所有数据都具有相同的模式
2 半结构化数据:常见的有XML文档和JSON数据。
3 非结构化数据

数据属性的类型
(1)标称属性:又称为分类属性,统计学中称为定类变量。
当标称属性的类别或者状态数为两个的时候,称为二元属性,二元属性又称为布尔属性。
对于二元属性,又分为对称二元属性和非对称二元属性。
(2)序数属性:不仅包含属性的全部特征,还能反应对象之间的等级和顺序。统计学中也称为定序变量。
(3)数值属性:可以度量的,通常用实数表示。
分为区间标度属性和比率标度属性。
区间标度属性有:日历,日期,智商等。相等的数字距离代表所测量的变量相等的数量差值 ,在统计学上也称为定量距离
比例标度属性可以进行加减乘除运算,统计学中称为定比变量,应用最广泛

数据集中趋势的度量:
数据集中趋势:一组数据向某一中心值靠拢的程度,他反应一组数据中心点的位置所在。
度量:
算数平均数 中位数(位置平均数) 众数 k位百分数 四分位数

数据离中趋势的度量:
极差:最大值与最小值之差
四分位数极差(IQR):第三个四分位数减去第一个四分位数
平均绝对离差:各个数值与平均值的距离综合后取平均

数据分布形态度量
数据的偏态分布度量
左偏态 右偏态 对称分布
偏态系数 样本偏态系数 皮尔逊偏态系数
数据峰度及度量
超值峰度

数据分布特征的可视化
1 箱形图
2 数据偏度和峰度计算的可视化:频数直方图

数据的相关分析
1 散点图
2 协方差
3 样本相关系数
卡方检验

数据预处理
1 数据变换、离散化与编码
(1)零均值化
(2)Z分数变换
(3)最小-最大规范化
(4)独热编码

2 数据抽样技术
(1)不放回简单随机抽样
(2)水库抽样

3 主成分分析

4 数据清洗:
(1)缺失值填充
完全变量 不完全变量
数据缺失机制:
完全随机缺失
随机缺失
非随机缺失
缺失值填充方法:
均值填充法:数值和非数值
回归填充法:
热卡填充法
(2)平滑噪声:分箱
等深分箱法
等宽分箱法
最小熵法
用户自定义区间法

spark数据预处理功能简介:
1 二值化
2 分箱器
3 哈达玛积变换
4 最大绝对值标准化
5 最小-最大变换
6 正则化
7 多项式扩展
8 标准化
9 特征向量合并
10 类别特征索引

全部评论 (0)

还没有任何评论哟~