Advertisement

数学统计:均值、标准差、方差、协方差

阅读量:

均值:均值描述的是样本集合的中间点,它告诉我们的信息是很有限的。

标准差则衡量了样本集合中各个数据点与均值之间的平均距离。举例来说,两个数据集分别为[0,8,12,20]和[8,9,11,12],它们的均值均为10,但两者的差异明显不同。计算得出,前者的标准差为8.3,后者仅为1.8,这表明后者更为集中,标准差较小。标准差正是用来衡量数据分布的分散程度。值得注意的是,我们采用n-1而非n的原因在于,通过使用较小的样本量,我们可以更接近总体的标准差,这在统计学上被称为“无偏估计”。

方差:方差则仅仅是标准差的平方。

协方差:前面几个统计量虽然已经很全面了,但我们需要注意到,标准差和方差通常用于描述单一维度的数据。然而,在现实生活中,我们经常遇到包含多维数据的数据集,最简单的例子就是同学们在学习时会统计多个科目的考试成绩。面对这样的多维数据集,我们当然可以为每一维单独计算其方差,但通常我们还想了解更多,比如,一个男孩的猥琐程度和他的受欢迎程度之间是否存在某种联系呢?协方差就是这样一种用来衡量两个随机变量之间关系的统计量,类似于计算方差的方法。我们可以类似于计算方差的方式,来计算协方差。公式上,协方差的计算公式为:\text{Cov}(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})其中,\bar{X}\bar{Y}分别是变量XY的平均值。这个公式告诉我们,协方差反映了两个变量之间的变化趋势。如果一个变量的值增加,另一个变量的值也倾向于增加,那么协方差就是正的;如果一个变量的值增加,另一个变量的值倾向于减少,协方差就是负的;如果两个变量的变化没有明显关联,协方差接近于零。通过协方差,我们可以更深入地理解多维数据中变量之间的相互作用。

来度量各个维度偏离其均值的程度,标准差可以这么来定义:

协方差的结果具有何意义?当数值为正时,说明变量间存在正相关关系,这可通过协方差计算可得。换言之,一个人的外在形象对其吸引力有一定影响,但这并不意味着所有情况都如此。若协方差为负,则表示变量间存在负相关关系,即外在形象越差,可能越受他人欢迎。这种关系虽然看似矛盾,但并非绝对。当协方差为零时,统计学上可认为两变量相互独立。

从协方差的定义上我们也可以看出一些显而易见的性质,如:

协方差多了就是协方差矩阵

上一节涉及的那些具有吸引力但可能让人觉得不受欢迎的问题,正是典型的二维问题。而协方差也只能处理二维问题,随着维度的增加,我们需要计算多个协方差值,例如n维的数据集将需要计算n! / ((n-2)!*2)个协方差值。因此,随着维度的增加,使用矩阵来组织这些数据成为一种自然的选择。详细阐述协方差矩阵的定义:协方差矩阵是一个n×n的对称矩阵,其中每个元素代表不同维度之间的协方差值。协方差矩阵的计算方法是通过计算每对维度之间的协方差值来构建的。

这个概念相当直观,无需复杂的理解。为了更直观地理解这一概念,我们可以考虑一个三维数据集的简单示例。假设数据集具有三个维度,则协方差矩阵的计算基于这些维度的数据。

可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。

分母为何为n-1,这背后的原因是什么呢?在统计学中,当我们计算样本方差时,分母通常使用n-1而不是n,这背后涉及到自由度的概念。具体来说,当我们从n个样本中估计出一个参数(如样本均值)后,剩下的自由度就减少了一个,因此分母应为n-1。这种调整使得样本方差成为无偏估计量,从而更准确地反映了总体的离散程度。

全部评论 (0)

还没有任何评论哟~