统计学---总结



1.对于属性值数据
通过使用柱状图可以观察各类别所占的数量信息,并进一步可以通过计算行频率与列频率来了解各变量之间的关联性;此外还可以结合饼状图表展示各类别在整体中所占的比例,并通过族形柱状图表则能够清晰地展示各类属性之间的关联关系;而结构柱状图表则主要用来比较不同类别内部数据分布的情况。
2. 对于数值型数据,
为了更好地了解数据的分布特征, 可以通过绘制直方图来分析其呈现单峰型、双峰型或均匀型特征, 并判断其偏向程度是左偏、右偏还是对称状态
接着分析集中趋势(包括中位数与平均值)以及分散程度(涉及四分间距、标准偏差与极差)。通常情况下,在右偏或左偏的数据集下,在这种情况下我们倾向于关注中位数与四分间距;而当数据呈现对称性分布时,则主要关注平均值与标准偏差。对于单峰型的数据来说其四分间距通常会显著大于标准偏差;但如果观察到在单峰情况下四分间距并未显著大于标准偏差,则需重新审视数据的均匀性以及是否存在异常观测值。
3)细致讨论其他不常见的特征
在存在多峰分布的情况下,应找出其产生原因;识别出原因之后,请依据数据分组进一步分析
有必要识别出明显的异常值,在去除这些离群点之前,在统计分析中通常会先计算原始数据集的均值与标准差;接着,在剔除这些异常值后,则重新计算修正后的均值与标准差;通过对前后两个结果的对比分析它们之间的差异,并进一步说明这一过程的意义所在。这种离群点的存在对其四分位间距的影响程度微乎其微。
均值与中位数接近表明异常值的影响较小;对于多峰的数据分布,则最好将它们区分开以便逐一进行描述。
3.利用直方图进行分组比较
例如将数据按照春夏秋冬分为两组并进行如下分析:对比这两组在离散程度方面的表现考察它们在集中趋势上的差异最后观察数值分布情况的具体变化
4.利用箱线图进行分组比较
例如,在每月的时间节点上呈现箱线图的数据分布情况,则有助于对比分析各组间的差异。
5.异常值分析比较
通过箱线图分析法,在处理数据时容易识别出离群点。此时可以结合直方图来进行综合分析。在评估某个数值是否属于异常值时,通常的方法是通过比较该数值与其他数据之间的差异程度来判断,如果差异显著,则表明该数值与其余数据存在显著差异;有时也会出现这种情况,并非绝对无例外;具体情况应根据实际情况来判断分析结果的一致性如何。
当我们识别到异常值时
对于识别出来的非人工干预导致的异常数据(即不属于人为因素影响的数据),我们应当分别从以下两个方面展开:一是针对包含有这些异常数值的那一组样本;二是考察剔除这些极端数值后的剩余样本群的具体特征及模型表现。通过对比两者的建模效果来判断是否存在显著差异。
6.数据变换
a.降低数据的偏斜程度
指此而言,在存在系统性偏差的情况下(即存在系统性偏差的数据样本),单纯依赖中心趋势指标与离散程度指标进行描述可能会出现较大局限性(即难以准确反映其集中趋势与分布特征)。此时,在存在系统性偏差的情况下(即在存在系统性偏差的数据情况下),建议采用数据转换方法(即通过取平方根变换或取对数变换等手段)来改善这一问题(即能够有效缓解这种偏差)。
一般情况下,在面对右偏分布的数据时,在应用平方根转换、对数转换以及倒数转换这些方法后,在一定程度上能够缓解右偏的程度。
对于左偏分布的变量,如果实施平方处理,也许能够将其转成对称分布。
7.散点图
散点图是一种用于分析两个数量型变量之间关系的最为直观有效的方法。它能够帮助我们深入理解数据中的内在联系。同时,在数据分析过程中我们始终将变量之间的关系作为重点关注的内容之一
观察到散点图后,则应首先关注其变化趋势的方向。若数据点呈现从左上方至右下方的分布,则表示变量间存在负相关关系;反之,则表明变量间存在正相关关系。此外,在这些情况之外,则为不相关的情况。
然后,在分析散点图所展示的相关类型时,请注意如果呈现出线性关系,则绘制出的散点图中的数据点将呈现出线性排列的趋势
接着,请关注散点图所呈现的相关程度。在意识散点图中发现这些点通常会紧密地沿着一条明显的曲线排列,在这种情况下我们称其为高度的相关关系;然而如果这些数据点呈现出一种模糊不清的无序状态类似于一团松散的乌云则说明两者之间不存在明显的关系这种状态被定义为完全不相关;而位于二者之间的则被定义为一般性的相关关系
最后阶段,在审视散点图数据时,请注意是否存在异常值。一旦发现个别偏离的点,请必要时进行深入分析,并考虑是否实施分组处理措施。
8.相关系数
在应用相关系数时需要注意以下几点:首先需要确定是否为数量型变量;接着需要观察是否存在线性关系;只有当存在线性关系时才能计算相关系数;而对于非线性的变量则不适用;最后还需检查是否存在异常值;这些异常值可能会扭曲相关系数的结果。
9.残差图
可以通过残差图来评估结果;通常采用残差的散点图和直方图来辅助分析;能够识别哪些预测值与实际值存在偏差,并进一步分析其原因;接着可以通过分组的方法建立回归模型。
