Advertisement

数据挖掘学习笔记(五)

阅读量:

数据的基本统计描述

- 目的

  • 更好的识别数据的性质,把握数据全貌。

- 三个主要方面

  • 中心趋势度量
  • 数据分散度量
  • 基本统计图

1. 中心趋势度量

  • 均值(代数方法)(样本vs总体)
    • 记:n是样本个数 N是总体个数
ar{x}=rac{i}{n} um_{i=1}^{n} x_{i}
u =rac{um x }{N}
复制代码
* 例:有score学生考试成绩的值:60,45,33,77,80,100,100,90,70,65。
  • 加权算数平均数
ar{x}=rac{um_{i=1}^{n} w_{i} x_{i}}{um_{i=1}^{n} w_{i}}
  • 例:一位同学某一科的成绩:其中平时测验得分为80分, 期中考试得分为90分, 期末考试得分为95分。
    其终评成绩计算方法如下: 平时测验占比为20%, 期中成绩占比为30%, 期末成绩占比为50%。
    其中每个分数所占的比例即为权重。
ar{x}= rac{80imes0.2+ 90imes 0.3+95imes 0.5 }{0.2+0.3+0.5} =90.5
  • median value
  • the median of ordered data values
  • when the number of observations is odd, the median is the middle value; when even, it is the average of the two middle values.
  • For example: The data sorted in ascending order is: 33, 45, 60, 65, 70, 77, 80, 90, 100, and another hundred. There are ten observations; thus the median is not uniquely defined. The two middle values are seventy and seventy-seven; hence the median value is calculated as follows:
rac{70+77}{2}=73.5
  • 通过差异进行推断(针对分组资料) *
  • L₁ 是中位数值区间的下界, N 是整个数据集中观察值的数量.
um freq

)是低于中位数区间的所有区间的频率和,

freq_{median}

是中位数区间的频率,而width是中位数区间的组距。
*

median=L1+eft {l}}{freq{median}} ight  imes width
age frequency
1~5 200
6~15 450
16~20 300
21~50 1500
51~80 700
81~110 44

众数

数据中出现最频繁的值

例:数据按递增序排序为:33,45,60,65,70,77,80,90,100,100。mode=100。

单峰的、双峰的、三峰的:可能最高频率对应多个不同的值,导致多个众数。

极端情况:如果每个数据值只出现一次,则它没有众数。

经验公式:

mean-mode=3imes eft

中列数

中列数是数据集的最大值和最小值的平均数。

例:数据按递增序排序为:33,45,60,65,70,77,80,90,100,100

中列数=(33 + 100)/ 2 = 66.5

对称数据和非对称数据

对称、正倾斜、负倾斜数据的中位数、众数和均值

2. 数据分散度量

  • 极差(又称全距,range):是集合中最大值与最小值之间的差距,即最大值减最小值后所得数。
    • 例:前例数据的极差为 100-33=67
  • 分位数(quantile):给定数据分布的第k个q-分位数是值x,使得小于x的数据值最多为k/q,而大于x的数据值最多为(q-k)/q,其中k是整数,使得0<k<q,有q-1个q-分位数。
  • 说明:特征化、区分、关联、分类、聚类、趋势/跑偏、异常值分析等。
    • 四分位数
      • 四分位数:Q1(25th 百分位),Q3(75th 百分位)
      • 四位分数极差:IQR=Q3-Q1
    • 五数概括、离群点和盒图
      • 五数概括:min、Q1、median、Q3、max。
      • 盒图(箱图):分布直观表示,体现五数概括。
      • 离群点:第三个四分位数之上或第一个四分位数之下至少1.5 x IQR的值。
    • 方差和标准差
      • 方差(样本方差):是各个数据分别与其平均数之差的平方和的平均数。
    • s{2}=\frac{1}{n-1}\sum_{i=1}{n}eft ^{2}=rac{1}{n-1}eft
      • 标准差:方差的平方根
igma {2}=\frac{1}{N}\sum_{i=1}{N}eft ^{2}=eft -ar{x}^{2}
复制代码
  * 例:有score学生考试成绩的值:60,45,33,77,80,100,100,90,70,65。求其方差及标准差。

3. 基本统计图

  • 箱线图(Box Plot)
  • 五数总结(Five-Number Summary)
  • Minimum, Q1, Median, Q3, Maximum
  • 箱线图(Box Plot)
  • 通过绘制一个箱体来展示数据分布。
  • 箱体两端位于四分位距(IQR)范围内。
  • 中位数由箱体内的一条线标识。
  • 箱线延伸至最小值与最大值。
  • 超出范围的数据点被视为异常值
  • 直方图(Histogram)
  • 横轴表示数值大小
  • 纵轴表示频率
  • 饼状图(Pie Chart)
  • 显示单一数据系列中各项目与其总和的比例关系
  • 散点图(Scatter Plot)
  • 将每对数值作为坐标绘制于平面
  • 可直观识别二元数据集中的集群与离群点
  • 每对数值对应平面坐标系中的一个点
  • 频率直方图(Frequency Histogram)
  • 用于描绘频率分布的图形表示
  • 直方图相较于盒须图具有更强的描述能力
  • 右侧两个直方图可能具有相同的盒须表示
  • 具有相同五数参数但不同数据分布特征的数据集存在差异性
  • 数据呈现正相关趋势通常位于左侧区域
  • 数据呈现负相关趋势通常位于右侧区域

全部评论 (0)

还没有任何评论哟~