方差 标准差_均值、方差、标准差、协方差、相关系数的概念及意义
一、均值(期望)、方差、标准差
下面给出这些概念的公式描述:
均值(期望):
方差:
标准差:
均值(期望)表示为样本集合中间点的一种度量方法,并且它能够帮助我们计算出一组数据的主要位置参数。然而这种度量方法仅能提供有限的信息,并不能全面反映数据集的整体分布情况
取两个集合为例:
例如,
[0, 8, 12, 20] 和 [8, 9, 11, 12]。
这两个集合的平均值均为 10,
然而,
它们之间的差异却显著不同。
计算两者的标准差,
前者为 8.3,
而后者仅为 1.8。
标准差较小表明数据点在平均值附近更为集中。
而标准差则精确描述了这种
"分散程度"。
需要注意的是,
我们采用样本集来估计总体的标准差时,
通常会除以 n-1 而不是 n。
这是因为
"无偏估计" 的方法能够更好地反映总体特征。
而方差仅为其平方。
二、协方差和相关系数
为了探讨协方差与相关系数的关系及其影响,在统计学中它们被广泛应用于评估变量间的相互关联程度。不可忽视的是相关性这一核心概念,在统计学中它主要衡量的是不同变量之间的相互关联程度
2.1有关系
专业人士指出:随着进城买房人数的增加(即城镇化率提升),房价也随之上涨(数据来源显示)。

从上图可以看出,房价与进城买房的人数成正比,两者的关系是正相关 。
城镇化除了提升城市房价外还存在另一项影响即降低出生率。城镇化与出生率之间的关系表现为负相关关系:

因此,“城镇化是最优的人口政策”,无论是在新加坡、日本、中国还是在美国都能观察到这一现象。从一个角度来看,城镇化促进了更多人进入房地产市场;而从另一个角度而言,则伴随着生育率的下降。那么未来的房价走向如何?预测未来的趋势则需要专业的统计学家进行分析。
2.2没关系
比如说买彩票,跟是否求神拜佛,是否洗手这些事没有关系的。

协方差、相关系数 就是尝试找出两个随机变量之间具有什么样的关系。
2.3协方差
标准差与方差通常用于描述单一维度的数据特征,在现实中我们经常处理包含多维数据的数据集。例如,在分析一个人的身高与体重时,我们可能会探索它们之间的关系。协方差是一种用于衡量两个随机变量之间关系的重要统计量。类似于计算方差的方法,我们可以度量各个维度偏离其均值的程度。
协方差的结果有什么意义呢?
当计算出的结果呈现正值时,则表明两个变量之间存在正相关关系;换句话说,在这种情况下可以推断出一个变量值越大则另一个变量也会随之增大。若计算得的结果数值为负值,则表示这两个变量之间的关系属于负相关;即一个变量值越大则另一个变量会随之减小。当计算得出的相关系数数值等于零时,则可以判断这两个变量之间不存在显著的相关性;也就是说身高与体重的变化之间并不存在任何关联。
协方差容易受到数值大小的影响,如果
,
的值均扩大10倍,则
也会有所扩展 为了解决这个问题 我们一般会将协方差进行归一化处理 这被称为相关系数
2.4相关系数
相关系数 消除了协方差 数值大小的影响。
对于
,
样本相关系数为:
其中
,
为标准差。
正相关: 0< r <=1
负相关: -1<= r <0
不相关: r=0 ,r=0代表不相关,并不一定独立。
相关文章:
马同学的文章中采用了欧式距离与余弦距离作为说明问题的工具。特别地,在第3.3节中阐述了样本相关系数即为余弦距离这一论断 ,我对此仍然感到困惑。
