均值、方差、标准差、协方差的概念及意义
1、均值和方差
(1)
(1)
均值:

标准差:

方差:

(2) 均值描述的是样本集合的中间点 。
(3) 标准差给我们描述的是样本集合的各个样本点到均值的距离之平均 。
(4)示例
以两个集合为例,[0, 8, 12, 20] 和 [8, 9, 11, 12]
两个集合的均值都是10,但显然两个集合的差别是很大的,
两组数据的标准差分别为8.3和1.8,在比较中可以看出后者更为集中,并且其标准差也较小一些。标准差实际上反映了数据分布的离散程度 。需要注意的是,在计算样本方差时为何采用除以n-1而非n的方法,则是因为当我们使用样本数据去估计总体参数时,并非总是能获得完全准确的结果。因此,在统计学中我们通常采用无偏估计的方法来修正这一偏差——即通过将样本数量减一来获得更加准确的结果。
方差则仅仅是标准差的平方。
2、为什么需要协方差
(1)协方差定义
在现实中我们经常处理包含多维度数据的数据集,在学校里我们需要统计多个学科的成绩当面对这类多变量数据时我们可以分别计算每个维度的数据方差但通常我们会想知道更多例如一个学生的数学成绩与物理成绩之间是否存在关联这就引出了协方差这一统计工具它是一种衡量两个随机变量间关系的统计指标我们可以仿照方差的定义来推导协方差的具体形式

来度量各个维度偏离其均值的程度,协方差可以这样来定义 :

(2)意义
协方差的结果有什么意义呢?
如果计算得到的结果为正值,则可得出这两个变量呈正相关关系(协方差这一统计指标能够帮助我们理解变量间的关联程度),可见,在数学成绩较高的情况下,物理成绩通常也会较好。
如果结果为负值 , 就说明两者是负相关 ,数学成绩高则物理成绩低。
当**等于零时,则两者之间不存在关联;数学成绩与物理成绩之间无显著关联;在统计学中被定义为'相互独立'。
(3)性质
从协方差的定义上我们也可以看出一些显而易见的性质,如:

3、协方差矩阵
如前所述,在讨论学生成绩相关问题时提到了这是一个典型的二维问题;然而协方差仅能处理二维数据。当维度增加时,则需要计算多个协方差;例如在分析n-dimensional data sets时就必须要进行这一操作

一种协方差,在我们考虑到数据之间的关系时会很自然地想到使用矩阵来组织这些数据。当我们考虑到数据之间的关系时会很自然地想到使用矩阵来组织这些数据解释**协方差矩阵的概念,并用符号表示。

这一概念具有相对直观的理解性。例如,在三维空间中,则协方差矩阵可表示为:

可见,协方差矩阵是一个对称的矩阵 ,而且对角线是各个维度的方差 。
