数据挖掘学习笔记(五)
发布时间
阅读量:
阅读量
数据的基本统计描述
- 目的
- 更好的识别数据的性质,把握数据全貌。
- 三个主要方面
- 中心趋势度量
- 数据分散度量
- 基本统计图
1. 中心趋势度量
- 均值(代数方法)(样本vs总体)
- 记:n是样本个数 N是总体个数


* 例:有score学生考试成绩的值:60,45,33,77,80,100,100,90,70,65。
- 加权算数平均数

- 例:一位同学某一科的成绩:其中平时测验得分为80分, 期中考试得分为90分, 期末考试得分为95分。
其终评成绩计算方法如下: 平时测验占比为20%, 期中成绩占比为30%, 期末成绩占比为50%。
其中每个分数所占的比例即为权重。

- median value
- the median of ordered data values
- when the number of observations is odd, the median is the middle value; when even, it is the average of the two middle values.
- For example: The data sorted in ascending order is: 33, 45, 60, 65, 70, 77, 80, 90, 100, and another hundred. There are ten observations; thus the median is not uniquely defined. The two middle values are seventy and seventy-seven; hence the median value is calculated as follows:

- 通过差异进行推断(针对分组资料) *
- L₁ 是中位数值区间的下界, N 是整个数据集中观察值的数量.

)是低于中位数区间的所有区间的频率和,

是中位数区间的频率,而width是中位数区间的组距。
*

| age | frequency |
|---|---|
| 1~5 | 200 |
| 6~15 | 450 |
| 16~20 | 300 |
| 21~50 | 1500 |
| 51~80 | 700 |
| 81~110 | 44 |
众数
数据中出现最频繁的值
例:数据按递增序排序为:33,45,60,65,70,77,80,90,100,100。mode=100。
单峰的、双峰的、三峰的:可能最高频率对应多个不同的值,导致多个众数。
极端情况:如果每个数据值只出现一次,则它没有众数。
经验公式:

中列数
中列数是数据集的最大值和最小值的平均数。
例:数据按递增序排序为:33,45,60,65,70,77,80,90,100,100
中列数=(33 + 100)/ 2 = 66.5
对称数据和非对称数据
对称、正倾斜、负倾斜数据的中位数、众数和均值
2. 数据分散度量
- 极差(又称全距,range):是集合中最大值与最小值之间的差距,即最大值减最小值后所得数。
- 例:前例数据的极差为 100-33=67
- 分位数(quantile):给定数据分布的第k个q-分位数是值x,使得小于x的数据值最多为k/q,而大于x的数据值最多为(q-k)/q,其中k是整数,使得0<k<q,有q-1个q-分位数。
- 说明:特征化、区分、关联、分类、聚类、趋势/跑偏、异常值分析等。
- 四分位数
- 四分位数:Q1(25th 百分位),Q3(75th 百分位)
- 四位分数极差:IQR=Q3-Q1
- 五数概括、离群点和盒图
- 五数概括:min、Q1、median、Q3、max。
- 盒图(箱图):分布直观表示,体现五数概括。
- 离群点:第三个四分位数之上或第一个四分位数之下至少1.5 x IQR的值。
- 方差和标准差
- 方差(样本方差):是各个数据分别与其平均数之差的平方和的平均数。
- 标准差:方差的平方根
- 四分位数

* 例:有score学生考试成绩的值:60,45,33,77,80,100,100,90,70,65。求其方差及标准差。
3. 基本统计图
- 箱线图(Box Plot)
- 五数总结(Five-Number Summary)
- Minimum, Q1, Median, Q3, Maximum
- 箱线图(Box Plot)
- 通过绘制一个箱体来展示数据分布。
- 箱体两端位于四分位距(IQR)范围内。
- 中位数由箱体内的一条线标识。
- 箱线延伸至最小值与最大值。
- 超出范围的数据点被视为异常值
- 直方图(Histogram)
- 横轴表示数值大小
- 纵轴表示频率
- 饼状图(Pie Chart)
- 显示单一数据系列中各项目与其总和的比例关系
- 散点图(Scatter Plot)
- 将每对数值作为坐标绘制于平面
- 可直观识别二元数据集中的集群与离群点
- 每对数值对应平面坐标系中的一个点
- 频率直方图(Frequency Histogram)
- 用于描绘频率分布的图形表示
- 直方图相较于盒须图具有更强的描述能力
- 右侧两个直方图可能具有相同的盒须表示
- 具有相同五数参数但不同数据分布特征的数据集存在差异性
- 数据呈现正相关趋势通常位于左侧区域
- 数据呈现负相关趋势通常位于右侧区域
全部评论 (0)
还没有任何评论哟~
