Advertisement

数学期望、方差、标准差、协方差、残差、均方差、均方误差、均方根误差、均方根值对比分析及python实现

阅读量:

内容较多,如有错误之处请评论区留言以便更正,内容仅供参考。


文章目录

  • 期望(Expected value)

    • 意义

    • 定义

      • 离散型
      • 连续型
    • 期望与平均值的区别

  • 方差(Variance)

    • 案例
    • 概率论方差
    • 统计学方差
    • 样本方差
    • python实现代码
  • 标准差(Standard Deviation)

    • 方差和标准差的区别
    • python实现代码
  • 协方差(Covariance)

    • 定义
    • 相关系数
    • 协方差矩阵
      • 案例实现
  • 残差

  • 均方误差(mean-square error, MSE)

    • python实现代码
  • 均方根误差(Root Mean Squared Error, RMSE)

    • 均方根误差与标准差之间的对比分析

      • Python代码实现
    • 均方根值(root-mean-square,RMES)

      • python实现代码

期望(Expected value)

数学期望在概率论与统计学领域被定义为各个可能结果与其发生概率乘积之和,在描述一个随机事件中所涉及的随机变量平均取值时具有重要作用;它被用来衡量该随机事件中随机变量平均取值的大小。

该研究揭示了强大力学规律,在试验次数趋近于无限时,其算术平均依概率收敛于其期望值。

意义

数学期望可以用于预测一个随机事件的平均预期情况。

定义

离散型

如果一个随机变量X只取有限多个不同的数值或者虽有无穷多个数值但能一一列出,并且其所有可能取值构成一个或几个区间,则称X为离散型随机变量;例如,在投掷20枚硬币时,记X为出现正面的数量,则X的所有可能取值为从0到20的所有整数值。

离散型随机变量的一切可能的取值x_{i}与对应的概率p\left(x_{i}\right)乘积之和称为该离散型随机变量的数学期望,记为E(x)。它是简单算术平均的一种推广,类似加权平均。离散型随机变量X的取值为x_{1}, x_{2}, x_{3}, \ldots, x_{n}p\left(x_{1}\right), p\left(x_{2}\right), p\left(x_{3}\right), \ldots, p\left(x_{n}\right)X对应取值的概率,可理解为数据x_{1}, x_{2}, x_{3}, \ldots, x_{n}出现的频率f\left(x_{i}\right),则:E(x)=x_{1} * p\left(x_{1}\right)+x_{2} * p\left(x_{2}\right)+\ldots+x_{n} * p\left(x_{n}\right)=x_{1} * f\left(x_{1}\right)+x_{2} * f\left(x_{2}\right)+\ldots+x_{n} * f\left(x_{n}\right) 进一步得到:E(x)=\sum_{k=1}^{n} x_{k} p\left(x_{k}\right)

连续型

当一个variable可以在某个interval内任意take value时,则称其为continuous random variable。continuous random variables与discrete random variables均取决于该random variable可能value range的变化情况。例如,在公共汽车站等待时间x是一个random variable,在理论上x可以在interval [0,15)内的任何一点取得。

设连续型随机变量X的概率密度函数表示为f(x),当该积分绝对收敛时,则数学期望可表示为:E(X)=∫_{-∞}^{+∞}x f(x) dx

期望与平均值的区别

均值 是基于实验观察到的特征样本而得出的结果指标之一。例如,在某次测试中我们得到了x_1, x_2, x_3,\dots,x_nn个观测数据点作为结果反馈。因此我们通过这些数据进行计算得到该指标的具体数值为:\bar{X}= \frac{x_1 +x_2 +x_3+\dots+x_n}{n}

举个例子来说吧:假设我们连续投掷一颗骰子六次,并记录下每次出现的点数结果分别为2、2、2、4、4、4;那么这六个投掷结果构成了我们的样本数据集;这样我们可以计算出样本均值为(2+2+2+4+4+4)/6=3;需要注意的是,在这种情况下我们不能称期望为3。

期望值E[X]代表了一个随机变量X所对应的数值。从宏观的角度来看待这个数值,则可以将其理解为一种从整体上进行评估的结果。具体到该随机变量X所对应的样本空间中,则是一个具有特定意义的关键指标。

平均数是基于观测数据的一种描述性指标,在统计学中被广泛使用;预期值是概率论中的一个核心概念,在理论基础中具有重要地位;它通常用大写字母E来表示。

以掷骰子为例,在概率论中我们可以通过以下方式计算随机变量X的期望值:\mathrm{E}(X)=\sum_{i=1}^{6}i\cdot P(X=i)=\sum_{i=1}^{6}i\cdot\frac{1}{6}。计算过程如下:\mathrm{E}(X)=\frac{1+2+3+4+5+6}{6}=3.5。由此可知,在概率论中均值与期望具有密切联系

  • 概率值是频数随样本趋于无穷时的概率
    • 预期值就是平均数随样本趋于无穷时的结果(例如,在多次投掷均匀骰子的情况下...)当样本数量趋近于无限大时**E[X]=

      \lim_{n→∞}\frac{X₁+X₂+…+X_n}{n}

**)


方差(Variance)

除了均值之外,在统计学中还有一个重要的分布特征被称为方差(variance)。均值则代表数据分布的中心位置;而方差则反映了数据分散的程度。具体而言,在概率论和统计学中衡量随机变量或一组数据离散程度的标准是称为方差(variance)。当方差较大时,则表示随机变量取值较为分散;这一指标在统计描述中具有重要意义,并且在不同情况下会有不同的计算方法

案例

假设有两个数据集分别为[0,\ 8,\ 12,\ 20][8,\ 9,\ 11,\ 12]^{\ast} ,它们的平均数均为10 ,但二者之间存在显著差异 。通过对两组数据的方差进行计算分析可知 ,第一个数据集的数据波动较大 ,而第二个数据集的数据波动较小 。

概率论方差

概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。

设离散型随机变量X满足条件\mathbb{E}\left[\left(X - \mathbb{E}[X]\right)^2\right]存在,则称其为X的方差,并表示为\operatorname{Var}(X)或简记作DX;其中期望值\mathbb{E}[X]代表随机变量的平均取值水平,在此框架下确定了变量之间的差异程度。

离散型的概率分布方差计算式D(X)=E\left[(X-E[X])^2\right] = E[X^2] - (E[X])^2;当其取值范围限定在区间(a, b)时,则有概率密度函数f(x)的描述。 连续型的概率分布方差计算式 则表示为 D(X)=∫_{a}^{b}(x-μ)^2 f(x) dx

统计学方差

在统计学中,样本方差表示每个数据点与其平均值之间差异的平方后的平均结果;它用来反映各个观测数据与总体平均水平之间的差异程度。为了避免所有观测数据与其平均值之间的偏差总和等于零这一问题,并且由于离均差平方和会受到观测数量的影响而产生偏差,在统计学中采取了一种方法来解决这个问题;即通常采用的是这些离均差平方和除以观测数据的数量所得的结果来衡量数据集内部各个数值与其平均值之间的差异情况。

该总方差的计算方式具有显著的效果。
其中\sigma^{2}表示总方差,
X代表变量,
\mu则表示总平均值,
N则是总例数。

样本方差

在现实环境中无法穷举所有实例的情况下

此处采用分母替换策略时,在将分母由n替换为n−1的情况下,默认的做法是为了使通过小样本数据能够更接近总体标准差的本质特征。这样做的好处是可以用较少的数据获得更准确的标准差估计,并且这样的做法能够确保方差估计具有无偏性

python实现代码

复制代码
    # -*- coding: utf-8 -*-
    
    import math
    
    
    def get_average(records):
    """
    平均值
    """
    return sum(records) / len(records)
    
    
    def get_variance(records):
    """
    方差
    """
    average = get_average(records)
    return sum([(x - average) ** 2 for x in records]) / len(records)

标准差(Standard Deviation)

Standard deviation is also referred to as the standard deviation, commonly known as the root mean square deviation in Chinese contexts. It represents the square root of the average of squared deviations from the mean. It is typically denoted by the symbol σ. Standard deviation is the arithmetic square root of variance. This measure effectively reflects the dispersion or variability within a dataset.

计算总体标准差: σ等于方差的平方根, 即σ = √方差 = √(1/N ∑_{i=1}^{N} (X_i - μ)^2), 其中μ表示变量X在整体中的平均值。

求取样本标准差:S=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}

方差和标准差的区别

因为方差引入了平方项而导致量纲之间存在倍数关系这一现象的存在,并非偶然而是必然的结果

python实现代码

复制代码
    # -*- coding: utf-8 -*-
    
    import math
    
    def get_standard_deviation(records):
    """
    标准差 == 均方差
    """
    variance = get_variance(records)
    return math.sqrt(variance)

协方差(Covariance)

定义

在实际场景中,我们经常处理包含多维度信息的数据集。例如,在教育领域中对学生的多科成绩进行统计分析就是一个典型的例子。然而,在深入分析时(即当我们不仅仅关注单个维度的信息),我们往往希望了解更多信息——这些信息能够揭示不同维度之间是否存在某种关联或影响关系)。为了量化这种关联性(即两个变量之间是否存在某种联系及其程度),统计学中引入了协方差这一概念(Covariance)。特别地,在两个变量相同时的情况就是我们熟悉的方差(Variance)。特别地,在这种情况下(当两变量相同),协方差就退化为该变量自身的方差)。特别地,在这种情况下(当两变量相同),协方差就退化为该变量自身的variance)。特别地,在这种情况下(当两变量相同),协方ariance就退化为该变量自身的variance)。特别地,在这种情况下(当两变量相同),covariance就退化为该variable自身的variance)

从协方差的定义上可以看出一些性质,如:

  • 当自变量相同时, 协方差即等于其自身的方差.
  • 协方差具有对称性, 即\operatorname{kov}(\bm{x},\bm{x}) = \operatorname{kov}(\bm{x}).

另外,协方差的结果有什么意义呢?:

  • 当协方差\operatorname{cov}(\mathrm{x}, \mathrm{y}) > 0I(变量)are positively correlated when
  • 当协方差\operatorname{cov}(\mathrm{x}, \mathrm{y}) < 0I(变量)are negatively correlated when
  • 当协方差\operatorname{cov}(\mathrm{x}, \mathrm{x}) = 0I(变量)are exhibiting a zero correlation relationship, which is equivalent to statistical independence.

相关系数

协方差用于衡量变量XY之间的关联程度,在相同度量单位下具有一定的意义。然而,在不同度量单位应用相同的协方差时会因其数值大小产生显著差异性变化。为此提出了以下定义:其中\rho(X,Y)通过计算\frac{\operatorname{cov}(X, Y)}{\sqrt{\operatorname{var}(X)} \cdot \sqrt{\operatorname{var}(Y)}}或等价地\frac{\operatorname{cov}(X, Y)}{\sigma_{X} \sigma_{Y}}来量化两个随机变量之间的相关性

\rho(X,Y)\ 的绝对值等于1时\ ,表明变量间存在完美线性正相关关系。 当\rho(X,Y)\ 的绝对值等于-1时\ ,表明变量间存在完美线性负相关关系。
\rho(X,Y)\ 的绝对值在0到1之间时\ ,表明变量间存在一定强度的线性关联。 当\rho(X,Y)=0\ 时\ ,表明变量间不存在显著的线性关联。

协方差矩阵

协方差仅适用于处理二维问题。当维度增加时,则必须计算多个协方差数量。例如一个n维的数据集将需要计算\frac{n(n-1)}{2}个协方差。这自然促使我们想到使用矩阵来组织这些数据。接下来我们给出协方差矩阵的定义:其中c_{i,j}表示\operatorname{cov}(i,j)。举一个三维的例子来说假设数据集有三个维度则其对应的协方差矩阵将是一个3x3的对称矩阵如下所示:

\mathrm{C}=\begin{pmatrix} \operatorname{cov}(x,x) & \operatorname{cov}(x,y) & \operatorname{cov}(x,z) \\ \operatorname{cov}(y,x) & \operatorname{cov}(y,y) & \operatorname{cov}(y,z) \\ \operatorname{cov}(z,x) & \operatorname{cov}(z,y) & \operatorname{cov}(z,z) \end{pmatrix}

显然该矩阵具有对称性而且其主对角线元素对应各个维度的方差。

此外协方差矩阵作为数学工具常被用来计算特征间的关联性。在机器学习领域中协方差矩阵主要应用于主成分分析法(PCA)这种技术常用于数据降维。

案例实现

假设有四个样本

可以看出协方差是用于衡量各变量间相互关联性的指标之一。因此,在涉及两个特征的数据集中,默认情况下其对应的协方差矩阵必然是一个2×2的形式。其中主对角线元素表示各变量自身的方差

第一步:计算出XY两个特征空间的平均值:\bar{x}=3.25, \bar{y}=3
第二步:逐一的计算:\begin{array}{l}\operatorname{Cov}(X, X)=\frac{(1-3.25)^{2}+(3-3.25)^{2}+(4-3.25)^{2}+(5-3.25)^{2}}{4-1}=2.9167 \\ \operatorname{Cov}(X, Y)=\frac{(1-3.25)(2-3)+(3-3.25)(6-3)+(4-3.25)(2-3)+(5-3.25)(2-3)}{4-1}=-0.3333 \\ \operatorname{Cov}(Y, X)=\frac{(2-3)(1-3.25)+(6-3)(3-3.25)+(2-3)(4-3.25)+(2-3)(5-3.25)}{4-1}=-0.3333 \\ \operatorname{Cov}(Y, X)=\frac{(2-3)^{2}+(0-3)^{2}+(2-3)^{2}+(2-3)^{2}}{4-1}=4\end{array} 最后得出协方差矩阵为:\operatorname{Cov}(A)=\left[\begin{array}{cc}2.9167 & -0.3333 \\ -0.3333 & 4.000\end{array}\right]


残差

在实际数理统计过程中,样本观测值与其对应的拟合值之间的偏差通常被用来衡量数据分布的分散程度以及模型拟合效果的好坏。具体而言,在回归分析中这一偏差数值越大,则表明样本观测值与拟合值之间的差异较大,在一定程度上反映出模型的拟合效果较差。

在回归分析的过程中,在研究对象中收集了样本数据点(x_i, y_i)。随后基于这些数据点建立了一个回归模型,并确定了其函数形式。接着将这些样本数据点x_i输入到建立好的模型中进行预测。这样系统会计算出每个x_i对应的估计(或预测、拟合)结果\hat{y}_i. 这些估计与实际观测到的数值之间的差异即为残差(residual),通常用符号e_i表示,则有误差项满足关系式:e_i = y_i - \hat{y}_i

在回归分析中进行残差分析时,我们关注的是响应变量y_{i}与其基于拟合回归模型所得出的预测值\hat{y}_{i}之间的差异


均方误差(mean-square error, MSE)

均方误差反映了各观测值与其真实值之间距离平方后的平均程度;它也被理解为误差平方和的平均数。在机器学习领域中常用于衡量模型预测结果与实际观测值之间的差距程度;该指标直接对应于最小二乘法原理。

python实现代码

复制代码
    # -*- coding: utf-8 -*-
    import math
    
    def get_mse(records_real, records_predict):
    """
    均方误差
    """
    if len(records_real) == len(records_predict):
        return sum([(x - y) ** 2 for x, y in zip(records_real, records_predict)]) / len(records_real)
    else:
        return None

均方根误差(root mean squared error,RMSE)

也被称为标准误差。它等于其算术平方根。简而言之,在实际应用中,在有限次观测的情况下(用符号n表示),需要用最佳估计值来代替真实值。该统计量对于特大或特小偏差特别敏感,在工程领域具有良好的应用前景的主要原因在于能够很好地反映测量精度的原因在于能够很好地反映测量精度的原因在于能够很好地反映测量精度的原因在于能够很好地反映测量精度的原因在于能够很好地反映测量精度的原因在于能够很好地反映测量精度的原因在于能够很好地反映测量精度的原因在于能够很好地反映测量精度的原因在于能够很好地反映出测量结果的准确性与可靠性原因在于能够很好地反映出测量结果的准确性与可靠性原因在于能够很好地反映出测量结果的准确性与可靠性原因在于能够很好地反映出测量结果的准确性与可靠性原因在于能够很好地反映出测量结果的准确性与可靠性原因是由于它能有效度量观测数据与其理论期望之间的差异程度

均方根误差与标准差的对比

在形式上有一定的相似性;它是衡量数据序列与真实值之间偏离程度的一种指标;它代表的是数据序列与其均值之间偏离程度的度量;关键在于明确区分两者之间的区别;具体有:

  • 均方根误差(RMSE):等于观测值与真实值之间偏差平方除以观测次数n后的平方根;其用于评估预测模型中预测结果与其真实数值之间的差异程度。
    • 标准差(Standard Deviation):等于各观测数据与其平均数之间偏差平方之和除以样本数量后取其平方根;其则用于度量一组数据内部各个数值与其平均数之间的偏离程度。

python实现代码

复制代码
    # -*- coding: utf-8 -*-
    import math
    
    def get_rmse(records_real, records_predict):
    """
    均方根误差
    """
    mse = get_mse(records_real, records_predict)
    if mse:
        return math.sqrt(mse)
    else:
        return None

均方根值(root-mean-square,RMES)

也被称为方均根值或有效值的统计参数,在数据统计过程中将各个数值先进行平方处理并求其总和,在计算这些平方项的平均值得出最终结果后进行开平方运算即可得到所需的结果。该方法在物理学领域中被广泛应用于噪声分析等场景

python实现代码

复制代码
    # -*- coding: utf-8 -*-
    import math
    
    def get_rms(records):
    """
    均方根值
    """
    return math.sqrt(sum([x ** 2 for x in records]) / len(records))

全部评论 (0)

还没有任何评论哟~