人大版统计学教材第六版学习笔记--第4章 数据的概括性度量
文章目录
-
-
- 集中趋势的度量
-
- 分类数据:众数
-
顺序数据:中位数和分位数
-
数值型数据:平均数
-
众数、中位数和平均数的比较
- 离散程度的度量
-
- 分类数据:异众比率
-
顺序数据:四分位差
-
数值型数据:方差和标准差
-
相对离散程度:离散系数
- 分布的形状:偏态与峰态的度量
-
- 偏态及其测度
-
峰态及其测度
-
数据分布的特征可以从三个方面进行测度和描述:
1.分布的集中趋势
2.分布的离散程度
3.分布的形状

集中趋势的度量
集中趋势central tendency指一组数据向某一中心值靠拢或聚集的程度,反映了一组数据中心点的位置所在。
分类数据:众数
众数mode一组数据中出现次数最多的变量值。也适用于顺序数据和数值型数据的集中趋势测度。
适合数据量较大的情况。
不受数据中极端值 的影响。
众数是具有明显集中趋势点的数值。

顺序数据:中位数和分位数
-
中位数median是一组数据排序后处于中间位置上的变量值。也适用于数值型数据,不适用于分类数据。
不受数据中极端值 的影响。
适合研究收入分配。 -
四分位数quartile也称四分位点,是一组数据排序后处于25%(下四分位数)和75%(上四分位数)位置上的值。
数值型数据:平均数
也称均值mean一组数据相加后除以数据的个数得到的结果。不适用于分类数据和顺序数据。
是集中趋势最主要测度值。
在统计学中具有重要的地位,是进行统计分析和统计推断的基础。
是一组数据的重心所在,是数据误差相互抵消后的必然结果。
-
简单平均数simple mean
根据未经分组数据计算的平均数。 -
加权平均数weighted mean
根据分组数据计算的平均数。 -
特殊的平均数:几何平均数geometric mean
是n个变量值乘积的n次方根。
变量值本身是比率的形式时,采用几何平均法计算平均比率更为合理。
主要用于计算现象的平均增长率。
众数、中位数和平均数的比较
-
三者的关系
从分布的角度看,众数是最高峰值,中位数是处于中间位置上的值,平均数是全部数据的算术平均。

-
三者的特点和应用场合
众数:不受极端值影响;具有不唯一性(一个、两个、多个或没有众数);数据量较多时才有意义,数据量少时不宜使用;主要适合分类数据的集中趋势测度。
中位数:不受极端值影响;数据分布偏斜程度较大时,宜用中位数 ;主要适合顺序数据的集中趋势测度。
平均数:利用了全部数据信息;数据对称分布或接近对称分布时,宜用平均数;易受极端值的影响 ,偏态分布的数据,平均数代表性较差。
离散程度的度量
离散程度,反映各数据远离其中心值的程度。离散程度越大,集中趋势的测度值对该组数据的代表性就越差,反之,代表性就越好。
集中趋势与离散程度:中心值与代表性
分类数据:异众比率
异众比率variation ratio指非众数组的频数占总频数的比例。
衡量众数对一组数据的代表程度。
异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差,反之,代表性越好。
主要适用于分类数据,顺序数据和数值型数据也可以使用。
顺序数据:四分位差
四分位差quartile deviation也称内距或四分间距inter-quartile range,是上四分位数与下四分位数之差。
反映了中间50%数据的离散程度。
四分位差越小,说明中间的数据越集中,反之,则越分散。
不受极值的影响。
因为中位数也在50%之中,四分位差在一定程度上也说明了中位数对一组数据的代表程度。
主要用于顺序数据,也可用于数值型数据,不适用于分类数据。
数值型数据:方差和标准差
-
极差range
也称全距,是一组数据的最大值与最小值之差。
受极端值影响。
只利用了一组数据两端的信息,不能反映中间数据的离散情况。 -
平均差mean deviation
也称平均绝对离差,是各变量值与其平均数离差绝对值的平均数。(各变量值与平均数做差,取绝对值,再取平均值)
平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,全面准确地反映一组数据的离散情况。
平均差越大,数据离散程度越大,反之,则越小。 -
方差variance
是各变量值与其平均数离差平方的平均数。(各变量值与平均数做差,取平方,取平均值
最后取平均值时,对总体数据,总体方差计算公式是除以N;对样本数据,样本方差计算公式是除以n-1,n-1称为自由度 。) -
标准差standard deviation
是方差的平方根。
标准差具有量纲 ,与变量值的计量单位相同,因此实际意义比方差清楚。 -
相对位置的度量:标准分数standard score
也称标准化值或z分数,是变量值与其平均数的离差除以标准差后的值(各变量值与平均数做差,求标准差,前者除以后者)
给出了一组数据中各数值的相对位置。
标准分数为-1.5意味着该数值低于平均数1.5倍的标准差。
标准分数的求解公式也是常用的标准化公式(减均值,除标准差),在对多个具有不同量纲的变量进行处理时,常常需要对各变量进行标准化处理(标准分数平均数为0,标准差为1,0-1正态分布)。
原始数据的线性变换,没有改变组中数据的位置,也没有改变数据分布的形状。 -
相对位置的度量:经验法则
一组数据对称分布时,经验法则表明:约有68%的数据在平均数\pm1个标准差的范围之内;约有95%的数据在平均数\pm2个标准差的范围之内;约有99%的数据在平均数\pm3个标准差的范围之内。
在\pm3个标准差之外的数据,在统计上成为离群点outlier -
相对位置的度量:切比雪夫不等式 Chebyshev’s inequality
经验法适合对称分布的数据,如果一组数据不是对称分布,就用到切比雪夫不等式。
切比雪夫不等式提供了“下界”,即“所占比例至少是多少”。
对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/k^2)的数据落在\pm k个标准差之内,其中k>1,不一定是整数。
对于k=2,3,4切比雪夫不等式的含义是:至少有75%的数据在平均数\pm2个标准差的范围之内;至少有89%的数据在平均数\pm3个标准差的范围之内;至少有94%的数据在平均数\pm4个标准差的范围之内。
相对离散程度:离散系数
方差和标准差反映的是离散程度的绝对值 ,其数值大小一方面受原变量值自身水平高低的影响,变量值绝对水平高的,离散程度的测度值自然也就大;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。这直接影响不同组数据离散程度的比较。(单位不同没法进行对比)
离散系数coefficient of variation也称变异系数,一组数据的标准差与其相应的平均数之比。是测度数据离散程度的相对 统计量,用于比较不同样本数据的离散程度。
分布的形状:偏态与峰态的度量
数据分布是否对称、偏斜的程度、分布的扁平程度等。
偏态及其测度
偏态skewness一词是由统计学家皮尔逊K. Pearson于1895年首次提出的,是对数据分布对称性的测度。
测度偏态的统计量是偏态系数coefficient of skewness,记作SK。
如果数据对称分布,SK=0;SK>1或SK<-1,称为高度偏态分布;SK在(0.5,1)或(-1,-0.5)之间,称为中等偏态分布;SK越接近0,偏斜程度就越低。SK>0右偏,SK<0左偏。
峰态及其测度
峰态kurtosis一词是由统计学家皮尔逊于1905年首次提出的。它是对数据分布平峰或尖峰程度的测度。
测度峰态的统计量是峰态系数coefficient of kurtosis,记作K。
K=0,数据服从标准正态分布;K>0时为尖峰分布,数据分布更集中;K<0时为扁平分布,数据分布更分散。
