为什么回归直线过平均值点_一元线性回归分析

总第161篇/张俊红
1.回归模型简介
我们先来看一下什么是回归模型,以下解释来源于百度百科:
回归模型是一种用于预测的建模技术。它探讨的是目标变量与预测变量之间的关系,并广泛应用于数据驱动的预测分析、时间序列建模以及揭示变量间的因果联系。
回归模型的主要应用场景包括预测分析和因果推断。例如,在我们的学习过程中就已经接触过一元一次方程组的形式y = kx + b,这种方程组可以视为最基础形式的回归模型。当已知一个自变量x的值时(例如这里的x代表月份),我们可以通过该方程计算出对应的因变量y值即为销量数据。这一过程实际上就是对未来的趋势进行预测。
回归模型主要包含一元线性和多元一次回归,在本节中我们将向大家介绍一元线性回归的基本概念及其应用方法
2.参数估计
参数估计的主要作用是什么?具体涉及哪些参数?它主要用于确定方程y = kx + b中的未知参数k和b的具体数值。可能会有读者会问:为什么不直接进行计算呢?而实际上,在基础教育阶段我们通常可以通过两点坐标直接求解直线方程。
在实际应用中,在统计学中我们通常处理的数据集包含多个样本...这些样本点在理想情况下应服从某种线性关系模型。然而,在现实世界中由于各种噪声和干扰因素的影响这些样本点很难完全精确地落在同一直线上。因此我们需要通过建立一个最佳拟合直线来近似描述这些样本点之间的关系。其中斜率k和截距b是我们通过数据学习得到的最优参数使得这条直线能够最小化所有样本到直线的距离总和这样我们就能够用这条最佳拟合直线来反映这些样本所呈现的趋势特征。
为确定这条直线我们遵循一个原则 最终使所有点与该直线之间的距离达到最小 通过这种策略 我们将这种方法命名为最小二乘法 并指出它属于参数估计的方法
关于最小二乘法的更多内容,大家可以自行学习。
3.拟合程度判断
基于前面所述的参数估计方法我们成功获得了能够体现数据点分布趋势的一条直线。然而这条直线的具体准确性如何?也就是说它与实际数据走向之间的拟合程度如何?为了更好地评估这一点我们需要进行一定的验证。
这里介绍几个关于判断拟合程度的概念。
总平方和(SST):实际观察到的数据点与其均值之间的距离的平方之和,在回归分析中常被用作误差平方和(误差SS),它用于衡量因变量y的变化幅度或波动程度。
回归平方和(SSR):估计值(即拟合预测出的y值)与观测均值之间的距离平方之和。这部分变动源于自变量的变化,并可通过回归直线加以解释。
残差平方和(SSE):回归值与实际值之间的差异的平方和。这一部分是由不依赖于自变量的因素所导致的结果误差项所组成的不可观测的影响部分。
SST = SSR + SSE,
上述公式反映实际值y的波动情况由两个方面构成:一方面是由自变量x的不同而导致的变化(即回归平方和),另一方面是由其他潜在因素所造成的影响(即残差平方和)。
在理想的情况下(best case scenario),我们希望实际值y的变化尽可能主要由自变量x的变化引起(mainly induced by x的变化)。这种情形下(under such circumstances),当自变量x的变化能够解释因变量y波动的比例越高(the proportion of y's variation explained by x's changes)时(when),回归直线的表现就越好(the model's performance is better)。我们将这一指标命名为R²=SSR/SST
R^2越大,说明拟合度越好,介于[0,1]之间。
4.显著性检验
通过前面的步骤我们已经计算出了参数k和b的具体值,在数学表达式y = kx + b中已经得出了k和b这两个系数的具体数值。那我们是不是就可以直接将它们代入使用了呢?显然这并不完全可行,请思考原因是什么:因为参数估计是基于现有的样本数据进行计算得出的结论,在现有的数据分析结果下生成的一条拟合直线只能反映当前数据所呈现的趋势特征。然而这些由当前数据推导出的趋势特征是否能够充分代表全部总体范围内的趋势走向呢?这就需要我们进行进一步验证工作这就是所谓的显著性检验
其主要作用是用于反映x和y之间的线性关系。因此,在进行数据分析时,
首要任务就是确定这种线性关系是否存在显著性差异。
我们需要采用假设检验法来判断回归直线与实际数据之间是否存在显著的关联程度。
我们假定x与y之间不存在线性相关。那么,在这种情况下k值是否为零?若如此,则总平方和的变化是否完全取决于残差平方和?这表明SSR与SSE之比基本上接近于零?这一结论是基于我们的初始假设得出的。
在前面的方差分析部分已经提到,在样本数据数量增加时平方和会因为样本数据数量的增加而增大;因此我们需要将平方和转换为均方(即SS/df)。
在其中,在一元线性回归模型中,在这种情况下(即自变量数量),回归平方和与残差平方和分别具有不同的degrees of freedom值:前者为1(只有一个自变量),后者则为n−2(剩余自由度)。
统计量F
=(SSR/1)/(SSE/(n-2))
=MSR/MSE。
基于样本数据计算得到F统计量,并设定显著性水平后查阅对应于该显著性水平的临界F值。当计算得到的F值超过临界F值时,则拒绝零假设;反之,则不拒绝零假设。
5.回归方程应用
一元回归离差平方和主要用于进行预测分析,在实际应用中通常被划分为两种形式:一种是点估计方法(point estimation),即利用回归模型对今年12月的具体销售量进行精确计算;另一种是区间估计方法(interval estimation),则可借助回归模型估算出今年12月销售量的大致范围。
点预测相对简单,可以直接将x代入方程求解结果.相比之下, 区间预测略显复杂,但其本质仍然是我们之前讨论过的置信区间.关于置信度和置信区间的计算方法,关键在于两个要素: 样本均值和标准差.样本均值相对容易理解.

福利时刻:
最近几天内,在公众号上向一位好友介绍了新出版的一本书——《推荐系统开发实战》。现决定将此书赠送给三位读者作为福利——凡是在本公众号后台回复‘抽奖’即可参与活动。具体时间安排如下:于周一晚九点进行开奖,请及时关注。
还可以订阅下方个人公众号『搜索与推荐wiki』中的内容,并参与其中抽奖活动,在上午十一点准时开奖

