Advertisement

均值 VS 方差 VS 标准差 VS 协方差

阅读量:

了解概率统计的孩子都知道,在统计学中有一些基本概念:样本均值、方差以及标准差等指标。对于包含n个样本的集合来说,在这里我们会分别介绍这些核心指标的概念及其计算方式。这些熟悉高中数学知识的学生都能够理解这一部分内容,并且我们会在后续章节中进一步详细阐述。

显而易见,在统计学中均值被视为一个重要的集中趋势指标之一。它通过表征样本数据分布的中心位置来提供一定的信息量。然而,在实际应用中仅依赖于均值往往显得不够全面。相比之下我们更倾向于通过衡量数据分布的离散程度来获得更丰富 insights——这就是标准差的作用所在。为了直观理解我们可以比较两个不同的数据集例如[0 8 12 20]与[8 9 11 12]两者都具有相同的均值即数值分布中心均为10但明显它们的数据分布存在显著差异。具体而言计算得出第一个数据集的标准差约为8.3而第二个仅为1.8这表明第二个数据集中的数值更为集中在均值周围从而体现出较低的标准差水平。因此在统计分析中选择合适的标准差计算方法对于准确评估数据波动性至关重要——这是因为当我们使用样本数据来估计总体特征时采用n-1作为分母能够提供更为精确的结果(即所谓的无偏估计)。相反方差作为标准差的平方仅提供了离散程度的一个度量基准而不具备独立的意义价值

为什么需要协方差?

前面提到的一些统计指标似乎已经较为全面地涵盖了相关特征信息。

来度量各个维度偏离其均值的程度,标准差可以这么来定义:

协方差的结果具有何意义呢?若数值为正值,则表明两者呈正相关关系。由此可知,在现实中一个'越猥琐'的人反而会得到更多的关注。哎呀,这不得不让人联想到……反则一个'越猥琐'的人反而被贴上'讨厌'标签。真的存在这样的情况吗?若数值呈现负值,则表示两者之间存在负相关关系。而当协方差数值等于零时,则统计学上认定两变量相互独立。

从协方差的定义上我们也可以看出一些显而易见的性质,如:

协方差多了就是协方差矩阵

上一节讨论了怪异又受人喜爱的问题作为典型的二维案例,并指出只有当数据维度较低时(如二维),协方差才能有效捕捉变量间的线性关系;然而随着维度的增长(即n增大),我们需要计算更多的协方差项;这自然促使我们考虑将所有协方差信息系统地排列起来;具体来说,在n维数据集中共有 n! / ((n-2)!*2) 个这样的非重复协方差项,并将其组织成一个对称矩阵的形式就是我们所说的协方差矩阵

该定义相对直观,并且易于掌握。为了更好地理解这一概念,我们可以构造一个简单的三维示例来说明其应用场景。假设数据集具有三个维度,则协方差矩阵的形式为

可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。

全部评论 (0)

还没有任何评论哟~