均值,期望,方差,标准差,协方差
均值是描述一组数据集中趋势的指标之一,在统计学中用于表示样本数据的平均值;而期望则是概率论中的一个概念,表示随机变量在概率分布下的加权平均值。两者虽然都涉及平均数的计算方式(即均值),但它们的应用场景和计算依据完全不同:均值基于样本观测数据计算得出,而期望则基于概率分布来定义。
在统计学中,“方差”是用来度量一组数据偏离其均值的程度的指标;它反映了各个数据点与平均值之间的差异平方的平均数。“标准差”则是对“方差”的进一步简化理解——它是“方差”的算术平方根,在实际应用中更为直观地描述了数据分布的离散程度。
“协方差”则是用来衡量两个随机变量之间的关系强度及其方向性的统计量;它可以用来判断两个变量之间是否存在正相关、负相关或无相关性。“协方差”的正值表示两个变量正相关(一个增加另一个也倾向于增加),负值则表示负相关(一个增加另一个减少),零则表示两者相互独立(无明显线性关系)。需要注意的是,“协方差”受量纲影响较大,在实际应用中常被标准化为“相关系数”。
(参考多篇博文)
1.均值
均值具体来说,则是指基于实验中观察到的特征样本所计算的一种指标。例如,在我们的实验中获得了一系列数值:x₁, x₂, x₃,…, xₙ。那么根据这些数值的数据集进行均值计算。
1/N * (x_{1}+x_{2}+…x_{n})
当我们投掷骰子时, 进行了六次投掷, 得到的点数分别为2, 2, 2, 4, 4, 4. 这些观察结果构成了我们的样本数据. 根据计算可得平均值为(2+2+2+4+4+4)/6=3. 需要特别注意的是, 这里所说的期望并非这个数值. 让我们来详细阐述一下期望的概念.
2.期望
我们可以将期望视为关于随机变量的一种度量。这一概念则特别适用于其样本空间的情况。
该平均数作为一个重要的统计量(基于观察样本的数据分析),在概率论中被定义为一系列随机变量的长期平均值或预期表现;与此同时,在数学领域也被视为一种核心的概率论概念,在描述随机现象时具有关键性的作用。
首先给出定义公式:

那么上面那个掷骰子例子对应的期望求法如下:

从理论角度来看, 期望与概率之间存在密切的关系. 具体而言, 概率可被理解为当试验次数趋近于无限时, 频率所呈现的趋势; 而期望则代表了随机变量在无限次试验下的平均结果. 由此可见, 均值与期望之间的关联紧密体现在大数定律这一基础原理之中.
3.方差 variance
方差是各个数据与期望的差的平方的平均数。
在概率论与数理统计学中, 方差是用来衡量随机变量与其均值之间偏离程度的一种指标. 其计算方法是将各个数据点与样本均值之差的平方相加后取平均值, 即: s = \frac{1}{n}\sum_{i=1}^{n}(x_i - \overline{x})^2, 其中\overline{x}代表样本均值,n为样本容量,x_i则代表每个个体的数据.
当使用s = \frac{1}{n}\left[(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \dots + (x_n - \bar{x})^2\right]来估计样本X的方差时,则会发现该估计值并非真正意义上的X方差值;实际上它是真实方差的一个\frac{n-1}{n}倍;只有通过计算\frac{1}{n-1}\left[(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \dots + (x_n - \bar{x})^2\right]才能获得准确无误地反映X真实方差的结果;基于这一无偏性的特点,在统计学中我们总是采用\frac{1}{n-1}\sum(x_i - \tilde{X})^2来估计总体X的方差,并将其称为样本方差。

在统计学中,在计算样本标准差时我们通常使用n-1而不是n的原因在于这能够使我们的样本估计更接近总体的标准差,并且这种做法被称为‘无偏估计’。而方差仅仅是对标准差进行平方运算的结果。
4.标准差
方差开平方。

5.协方差
通常用来描述单一维度的数据。然而,在现实生活中,我们经常处理多维数据集。对于这样的多维数据集而言,在计算各个学科成绩的同时,并非只关注每个维度的表现情况。实际上我们还想深入探究其中潜在的关联性——例如:一个男孩可能在某个方面较为内向是否会影响其社交能力?或者学习态度与考试成绩之间是否存在显著差异?这些问题都可以通过协方差这一统计工具得以解答。类似于方差的计算方式,在协方差中我们同样遵循类似的逻辑框架进行分析:首先明确目标变量;其次计算各变量均值;最后根据公式得出结果并进行分析解读。

来度量各个维度偏离其均值的程度,标准差可以这么来定义:

协方差计算所得的结果具有何等意义?当协方差计算结果呈现正值时,则表明两个变量之间存在正向关联关系;反之亦然,在数值呈现负值时则代表变量间存在负向关联关系。由此可引伸出相关系数的概念定义:相关系数即为衡量变量间线性关联程度的一种标准化指标。具体而言,在实际应用中我们可以通过观察相关系数的具体数值大小来判断变量间的关联强度与方向。例如,在研究社交网络属性时发现:在多数情况下(尽管并非绝对),那些标新立异的人反而会获得更多的关注与喜爱(当然啦),这确实是一个有趣的发现!但须知这种现象是否普遍呢?若计算得零值,则表明两变量间不存在线性关系。
从协方差的定义上我们也可以看出一些显而易见的性质,如:

