SPSS:数据分析
目录
1、数据采集
2、数据是否服从正态分布
3、T检验(T Test)
4、方差分析(ANOVA)
5、卡方检验(Chi-square Test)
6、灰色关联度分析(Grey Relation Analysis,GRA)
7、弗里德曼检验(Friedman Test)
8、箱图(Box)
1、数据采集
1、数据分类
| 定性 | 观察、访谈、调查 |
|---|---|
| 定量 | 手动测量、自动测量、问卷打分 |
| 主观 | 等级、排序、感觉、有用性 |
| 客观 | 时间、数量、错误率、分数 |
| 自变量 | 不同的实验条件因素,研究的因素 |
| 因变量 | 不同的实验条件所影响的、要观测的因素 |
| 连续数量值(preference) | 时间、数量、错误率 |
|---|---|
| 离散数量值(usability | 问卷打分 |
| 等级数量值(usability) | 等级、排序 |
| 变量类型 | |
|---|---|
| Norminal Data 定类变量 | 变量的不同取值仅仅代表了不同类的事物,这样的变量叫定类变量。问卷的人口特征中最常使用的问题,而调查被访对象的“性别”,就是 定类变量。对于定类变量,加减乘除等运算是没有实际意义的。 |
| Ordinal Data 定序变量 | 变量的值不仅能够代表事物的分类,还能代表事物按某种特性的排序,这样的变量叫定序变量。问卷的人口特征中最常使用的问题“教育程度“,以及态度量表题目等都是定序变量,定序变量的值之间可以比较大小,或者有强弱顺序,但两个值的差一般没有什么实际意义。 |
| Interval Data 定距变量 | 变量的值之间可以比较大小,两个值的差有实际意义,这样的变量叫定距变量。有时问卷在调查被访者的“年龄”和“每月平均收入”,都是定距变量。 |
| Ratio Data 定比变量 | 有绝对0点,如质量,高度。定比变量与定距变量在市场调查中一般不加以区分,它们的差别在于,定距变量取值为“0”时,不表示“没有”,仅仅是取值为0。定比变量取值为“0”时,则表示“没有”。 |
2、数据采集方法
通过收集真实可靠的数据来消除主观偏差的影响;结合具体情境和实际需求来制定方案;在进行问卷调查时应特别注意采用科学合理的调查方式和规范化的操作流程;通过科学分类和规范化管理确保信息有序且易于检索
问卷星
3、数据分析软件
excel :各条件下观测量的均值、方差、标准误差
SPSS:涉及单因素方差分析及两两比较的Post hoc检验用于计算相应的F值及P值以确定差异显著性。
4、数据分析方法
如何鉴别我的数据中是否存在异常值?掌握几种方法!
| 异常值处理方法 |
|---|
|保留离群数据点|采用Friedman秩和检验法进行检验;
替代极端离群数据点(例如用次高数值替代);
将因变量转换为其他形态;
将这些离群数据包含在分析中,并相信它们不会显著影响结论。 |
|剔除离群数据点|直接删除离群数据点虽然简便, 但这是不得已而为之的方法.当我们需要处理离群数据时, 应当详细记录所处理的数据点及其对分析的影响程度, 并尽量分别汇报处理前后的分析结果.同时, 应考察这些离群个体是否符合研究筛选标准.若这些个体不符合入选条件,则应予以剔除.
师兄在实验数据分析中涉及数据可靠性的计算,并通过生成箱线图辅助展示数据分布特征;同时进行了描述性统计分析,并分别应用了ANOVA检验与Bonferroni校正方法对连续型变量进行了方差分析

5、数据分析目的
评价观测变量的效果如何
检验实验条件下的观测变量是否与对比条件有显著区别
2、数据是否服从正态分布
1、 什么样的数据应该满足正态分布
| 数据类型 | |||
|---|---|---|---|
| 连续数据 | 时间、身高、年龄 (可以无限限划分) | 需要正态分布,用于后期参数检验(先假设H0,根据检验结果作出拒绝或接受假设H0的判断) | F检验(ANOVA) T检验 卡方检验 Bonferroni检验 |
| 离散数据 | 评分 (只能是1、2、3等整数) | 非参数检验(无法对总体分布形态作简单假设) | 卡方检验 二项分布检验 K-S检验 Friedman检验 变量值随机性检验等 |
在处理连续数据时,我们同样需要理解的一个概念是:为什么要在假设实验中引入假设?
为了确定一个基准标准,在计算出统计量是否达到某个阈值的基础上进行验证以确保结果与假设保持一致
对数据进行状态分布的验证和考察其重要性在于确保分析的有效性和准确性
简单来说,状态分布是一种基本的 数据识别问题 方法;如果不符合状态分布,则常见 统计工具或分析手段将不再适用
如何检验一揽子数据是否遵循正态分布
|描述统计方法 (用描述的数字或图表来判断数据是否符合正态分布)|Q-Q图|

|Q是 quantile 的缩写,即 分位数 。 分位数就是将数据从小到大排序,然后切成100份,看不同位置处的值。比如中位数,就是中间位置的值。 Q-Q图的 x轴为分位数 , y轴为分位数对应的样本值 。x-y是散点图的形式,通过散点图可以拟合出一条直线, 如果这条直线的斜率为标准差,截距为均值.,则可以判断数据符合正态分布,否则则不可以。 如果拟合出来的直线是45度,可以保证中位数两边的数值分布是一样的,即正态分布中基于中位数左右对称。 SPSS软件实现实例|
|---|---|---|---|
|P-P图|

P-P图是基于变量累积概率与指定理论分布累积概率对应绘制的散点图,用于直观检验样本数据是否符合特定概率分布.若被检验数据与指定分布一致,则样本数据点应大致位于代表理论分布的对角线上.P-P图的检验原理与Q-Q图相似,但其采用的是分布分位数进行检验,而P-P图则使用累积比例.与Q-Q图类似,若数据呈正态分布,则在P-P正态分布图中,数据点应基本位于对角线上.SPSS软件实现实例|直方图

直方图主要分为两类:一类是基于频数的频率分布型(Frequency Distribution Histogram),另一类则是基于概率密度的比例型(Proportion Histogram)。在样本数据中某一数值出现的次数即为频数,在统计学中相应数值发生的概率则为其发生次数占总发生次数的比例。通过观察直方图我们能够直观地判断一组数据是否服从正态分布。
这是一个典型的茎叶图表实例:SPSS软件实现实例||
茎叶图是一种展示数据分布情况的独特图表形式

茎叶图的思路是将数组中的数按照位数进行比较,在数值大小基本不变或变化幅度不大的情况下作为主干(茎),而数值变化较大的部分作为分枝(叶),将其列在主干之后。通过这种方式可以清晰地展示每个主干后面跟着的具体数值信息。这可以被看作是一种数据化处理的直方图方法。


SPSS软件实现实例

|KS检验是基于样本累积分布函数来进行判断的。可以用于判断某个样本集是否符合某个已知分布,也可以用于检验两个样本之间的显著性差异。如果是判断某个样本是否符合某个已知分布,比如正态分布,则需要先计算出标准正态分布的累计分布函数,然后计算样本集的累计分布函数。两个函数之间在不同的取值处会有不同的差值。我们只需要找出来差值最大的那个点D。然后基于样本集的样本数和显著性水平找到差值边界值(类似于t检验的边界值)。判断边界值和D的关系, 如果D小于边界值,则可以认为样本的分布符合已知分布,否则不可以。||
|AD检验|AD检验是在KS基础上进行改造的,KS检验只考虑了两个分布之间差值最大的那个点,但是这容易受异常值的影响。 AD检验考虑了分布上每个点处的差值。|||
|W检验|W检验(Shapiro-Wilk的简称)是基于两个分布的相关性来进行判断,会得出一个类似于皮尔逊相关系数的值。 值越大,说明两个分布越相关,越符合某个分布。|||
介绍一种方法将非正态数据转换为正态分布
如何解决数据不符合正态分布的问题?无需担心,请考虑对变量进行处理以符合统计分析的前提条件。
| 原始数据X(必须为 正值 ),变换后数据X’ | 应用场景 |
|---|
| 对数变换| 当原始数据中存在小值或零时(如X=0), 可采用X'= \lg (X+1)的形式
还可以根据需求选择X' = \lg (k - X)或其他形式 | (1)通过这种转换可以使服从对数正态分布的数据达到近似正态状态.例如,在环境科学中某些污染物浓度数据以及人体内某些微量元素水平就符合这一特征. (2)此外, 这种转换还能帮助解决方差齐性问题,尤其是在各样本的标准差与其均值呈比例关系或变异系数CV接近常数的情况下. |
| 平方根转换 | X' = \sqrt{X} | (1)对于计数资料或者轻度偏态分布的数据来说, 使用平方根转换可以使数据满足正态分布的要求. (2)当样本的标准差与其均值之间呈正相关关系时, 这种转换有助于实现方差齐性的目标. |
|---|---|---|
| 平方根反正弦转换 | X' = \arcsin \sqrt{X} | 常用于处理服从二项分布的概率p或百分比p_i型数据.一般认为, 当总体概率p较小时(如p < 30\%)或者较大时(如p > 70\%), 数据偏离正态较为明显, 此时通过概率p_i的平方根反正弦转换可以使数据接近于正态分布,从而达到改善方差齐性的目的. |
SPSS实践笔记深入解析如何将非正态分布数据转换为符合统计分析要求的正态分布形态。(http://www.datasoldier.net/archives/1906 "SPSS实践笔记:将非正态分布数据转换为正态分布")
数据满足正态分布之后,我们就可以进行后续的参数检验了。
导师对SPSS数据分析与处理工作进行了深入探讨
3、T检验(T Test)
T检验是平均值的比较方法。 需要假设再论证。
| 分类 | 定义 | 实例 |
|---|---|---|
| 单一样本T检验 (One-Sample T Test) | 用于比较一个正态总体在方差未知时总体均值与某一已知数是否有显著性差异。或者说,用看比较未知样本总体的均值和已知样本总体的均值(这个是已知的)是否有显著性差异。这里的单一样本是指只有一个样本总体。 | 选取了5个人,测定了他们的身高,要看这五个人的身高平均值是否高于、低于还是等于1.70m |
| 独立样本T检验 (Independent-Samples T Test) | 用于检验两个独立样本是否来自具有相同均值的总体,本质是对两个样本均值之差进行T检验。 | 选取了5男5女,想看男女之间身高有无差异,这样,男的一组,女的一组,这两个组之间的身高平均值的大小比较可用这种方法。 |
| 配对样本T检验 (Paired-Samples T Test) | 用于检验两个配对总体的均值是否存在显著性差异。这里的配对是指,这两个样本值之间是一一对应的,样本容量相同。 | 选取了5个人,分别在饭前和饭后测量了他们的体重,想检测吃饭对他们的体重有无影响,就需要用这个t检验。 注意,配对样本t检验要求严格配对,也就是说,每一个人的饭前体重和饭后体重构成一对。 |
t检验方法是基于你的数据特征和研究目的而确定的。
t检验会计算出一个统计量(被称为t值),SPSS基于该t值得出最终结果(显著性水平)。
t检验方法是基于你的数据特征和研究目的而确定的。
t检验会计算出一个统计量(被称为t值),SPSS基于该T值得出最终结果(显著性水平)。
sig value means significance level (显著性水平),it indicates the probability to a certain extent that two averages are equal.
| 结果 | 结论 | 说明 |
|---|---|---|
| sig值 > 0.05 | 两组数据差异 不显著 | 说明平均值在大于5%的几率上是相等的,而在小于95%的几率上不相等。我们认为平均值相等的几率还是比较大的,说明差异是不显著的,从而认为两组数据之间平均值是相等的。 |
| sig值 < 0.05 | 两组数据差异 显著 | 说明平均值在小于5%的几率上是相等的,而在大于95%的几率上不相等。我们认为平均值相等的几率还是比较小的,说明差异是显著的,从而认为两组数据之间平均值是不相等的。 |
t检验的多个应用实例
**4、**方差分析(ANOVA)
又被称作「 变异数分析」或「 F检验」
在生物与化学领域中和人机交互(HCI)中的重复测量单因素方差分析与其他方法之间的比较
比如,评价AR系统相对于传统系统是否能显著改变时间
当我们遇到需要比较多个样本组均值的情况时,首先要想到的是one-way ANOVA;然后也需要考虑是否真正适合使用这一检验方法。
| 单因素方差分析 | 对成组设计的多个样本均数比较,应采用完全随机设计的方差分析 | 单因素方差分析,和Excel示例,SPSS官网教程:SPSS One-Way ANOVA Tutorial |
|---|---|---|
| 多因素方差分析 | 对随机区组设计的多个样本均数比较,应采用配伍组设计的方差分析 | 多因素方差分析(无重复试验双因素),和SPSS程序实现 |
探讨ANOVA中F统计量与P值的含义及其应用意义
F:越大,认为数值之间存在的差异就越大。
超详尽的SPSS单因素重复测量方差分析教程,请下载并仔细研读掌握这一部分内容后即可认为完全掌握了该方法
这种方案较为复杂, 那么我们可以考虑另一种更简单的方案: 单因素方差分析ANOVA及事后检验(这种方案专门针对单因素场景, 并涉及多组别间的差异分析)
5、卡方检验 (Chi-square Test)
卡方检验主要用于判断两个变量之间是否存在关联。(这个链接说到很好很清楚)
比如,评价出错和AR/传统系统的关系
官方发布的SPSS教学指南:卡方独立性检验实用指南
|求卡方值|

|
|---|---|
|求自由度|

|
|先指定置信度|比如:95%|
算出自由度和卡方值,根据界值表查询出理论置信度
| 指定置信度 > 理论置信度 | 认为假设不成立 |
|---|---|
| 指定置信度 < 理论置信度 | 认为假设成立 |
卡方检验的具体案例及其临界值表
卡方检验的具体案例及其临界值表
在卡方检验应用中的三个主要问题是什么?参考案例分析
X^2衡量理论与实际的差异程度
P:小于给定的阈值,相关性就越大
6、 灰色关联度分析(Grey Relation Analysis,GRA)
是一种多因素统计分析的方法。
简单来说,在灰色系统中就是一个系统,在这个系统中我们想了解其中某个关注的项目受其他因素影响的程度有多大或者说影响大小如何排序就是一个灰色系统的基本问题在这个过程中我们需要做的是通过分析来确定某一个指标与其他哪些因素之间具有更强的关联程度或者说它们之间的相关性高低从而能够对这些影响因素进行排序进而得出一个合理的评价结果这样我们就能够清楚地知道我们关注的那个指标与哪些因素之间有更强的影响关系或者说是更重要的关联程度
深入学习这个博客中的具体案例分析能够帮助您全面理解其核心理念:[灰色关联度分析(Grey Relation Analysis, GRA)原理详解]( 灰色关联度分析(Grey Relation Analysis, GRA)原理详解)
7、 弗里德曼检验(Friedman Test)
SPSS-Friedman 秩次和检验-非参数统计分析-K个相关样本的统计分析 案例分析
8、 箱图(Box)


Box-and-Whisker Plot SPSS及Excel 箱线图学习
