教育统计学知识总结1

阅读量：

基础知识

方差；标准差；协方差；标准分；递归；迭代；最小二乘法；logistics回归；信效度；R2；

均值或样本平均、期望：

中位数:

是从小到大排列的

中位数不受到极端值的影响，在稳健性方面较之算术平均数更为突出；然而它不具备像算术平均数那样能够直接用于计算全部观测值之和的能力。因此而言，在统计学中我们通常将算术平均数与中位数分别视为衡量数据中心的不同测量指标；两者都有其独特的适用场景和价值

上下四分位数---位于数据的上下四分之一处的数

也称第三四分位数（Q3）和第一四分位数（Q1），或者称为75百分位数和25百分位数

方差：

在统计学中，方差（尤其是样本方差）被定义为各个观测数据与其算术平均数离差平方的平均值；它通常用于衡量随机变量与其均值之间差异的程度。其中x₁, x₂,...,xₙ代表n次独立观测的结果。

为其样本均值

盒形图

条件概率

P(AB)=P(A|B)P(B)，当P（B）>0

=P(B|A)P(A)，当P（A）>0

全概率公式

已知可能“原因”发生的概率，求“结果”发生的概率。

注：条件的含义是：当B发生当且仅当B与A1，A2...An之一同时发生

贝叶斯公式

标准分：

在标准分体系中具有优势的是各学科的标准分数单位经过转换后将统一表现为均值为0固定模式的标准表达形式

标准分数的具体数值及其正负属性能够指示该考分相对于团体的位置状态（依据Z值查阅标准正态分布表）

确定等级评定的人数

样本方差与总体方差

协方差

COV（X，Y）=E［（X-E（X））（Y-E（Y））］

等价计算式为COV（X，Y）=E（XY）-E（X）E（Y）

方差分析

回归分析：

--回归模型拟合程度的指标

0=<

<=1

如果

所有总变异均被回归直线所解释，在这种情况下变量间达到完全线性相关关系。采用最小二乘法构建的回归模型完美地经过了该数据集的所有样本点

如果

=0，表示响应变量的变异不能为回归直线解释，或者说x,y间无线性关系

教育测量与评价的信度

表示测量结果的一致性和准确性，并衡量其能否真实可靠地反映考生的能力水平或特质特征。从理论上讲, 一般而言, 学业成就测验应达到较高的信度水平, 即其信度系数通常应在 0.9 以上, 并经常达到 0.95 的水平;而对于性格特征和兴趣爱好等人格测验来说, 其信度系数则通常处于 0.8 至 0.85 的区间

SPSS分析步骤

分析-标度-可靠性分析

信度系数类型一：稳定性系数

采用一致的评价尺度对同一研究对象分别在两个不同的时间段进行两次测量所得实得分数之间的相关性水平

最常用的是pearson相关系数

稳定性相关系数优点：能够呈现测验结果在时间上的变化趋势，并且可作为评估未来行为表现的重要依据

缺点：**易受练习和记忆的影响；**适用于速度测验而不适用于难度测验

信度系数类型二：等值性系数

用于评估两个等效（题型题数、难度、区分度相等）但具体内容不同的量表之间差异性的方法，在同一时间间隔内对同一被试者先后施测两次，并计算两组对应分数之间的相关性结果。

优点：同一时间段内使用两个复本的测验，在信度上既能体现不同时间稳定性的同时也能体现不同测题的一致性；无论是针对难度还是速度方面的评价都具有适用性。

缺点：设计出两份难度和内容完全一致的测验具有相当难度；受试者在进行性质极为相近的两项测试时可能会面临较大的心理压力，并且这可能导致其在测试中的表现不准确

减少完成测验的积极性。

信度系数类型二：内部一致性系数

该测量工具内部的一致性是由其前后两半部分得分的相关性指标来衡量的（例如按照奇偶题号划分或按照测验内容的不同 halves 分割）。

估计内部一致性系数的常用方法：

采用二分法计算出两个组的相关系数值后，并运用斯皮尔曼-布朗公式进行调整以获得整体测验的一致性系数

优点：减少学生的疲劳、厌烦等因素的干扰

缺点：只能表示两半试题的等值程度，不能提供时间稳定性的信息。

信度系数类型四：论文式测验的信度系数

**论文测验的评估缺乏严格的规范性标准，在同一道题上不同考生的回答及其评价结果均存在差异性问题，在此情况下我们不能沿用前述方法进行评估而应当采用克龙巴赫（Cronbach, 1951）所提出的信度系数计算公式来进行测量可靠性分析：

信度对于教育测量的意义：

具有高度可靠性（即信度高）的教育测量可用于教师及教育管理者获取可靠的数据资料，并为其预测和发展方向提供指导依据。

②高可靠性教育评估工具能使教师提供更加客观和可靠的评价，并帮助学生更加真实地了解自身情况。从而促进教学与学习过程的有效优化。

教育测量与评价的效度

效度（validity）是衡量测验对其目标特质精准程度的重要指标。

效度的类型一：内容效度

测验题目样本对于应测内容与行为领域的代表性程度

分析方法：

该方法作为定性技术的基础，在于它依赖专业人士对测试项目与其目标领域匹配程度的评估。

统计分析法（定量）根据前后两次测验的差异显著性，确定测验的内容效度

效度的类型二：构想效度

测验所提供的数据与同理论假设的符合程度

影响构想效度的因素：

• 对构思缺乏明确的说明，概念解释模糊，逻辑关系不清。

• 单一方法和操作引起的偏差。

• 构思水平之间的混乱。

• 研究过程中主试的期望、被试因猜测而发生的心理与行为

的改变，不同实验处理的相互作用等。

效度的类型三：统计结论效度：

评估相关研究数据的分析流程与方法的有效性标准主要受到数据质量水平及统计假设的影响程度如何

效度的类型四：研究的外部效度：辑

研究结果能够一般化和普遍化到样本来自的总体和其他

变量条件、时间和背景中去的程度，即研究结果的普遍性和

代表性

难度：

难度代表测验项目的难易水平，在测量应试者回答一个题目时所遇到的障碍性时使用的指标被称为题目的难度系数，并用P来表示。

P 值越大，难度越低， P 值越小，难度越高。一般来说，

难度值平均在 0.5 最佳，难度值过高或过低，都会降低

测验的信度。

难度的计算（二分法记分）：

P=R/N

R：答对人数；N：被试者总数

难指测验项目的难易程度。刻画被试者作答一个题目所遇到的困

**难程度的

量叫做题目的难度系数，可用 P 表示。

难度是指测验项目的难易程度。刻画被试者作答一个题目所遇到的困

难程度的量叫做题目的难度系数，可用 P 表示。

分析法（定性方法）： 依靠有关专家对测验题目与应测

内

主观试题

过易、过难会造成测验分数偏离正态分布，使测验分数离散程

度变小。

难度系数为 0.5 左右时，测验的方差才可达到最大值。适宜难

度可加大考生得分的差异，从而提高测验的鉴别力。

区分度：

即鉴别力，主要指测试对于不同水平的被试者加以区分的能力

区分度通常用 D 表示，取值范围为 +1.00 至 -1.00 。 D 越高时，

试题的区分度越好。 D 为正时，试题积极区分，即高分组通过率高，

低分组通过率低； D 为负时，试题消极区分，即高分组通过率低，

低分组通过率高。

区分度与难度紧密相关，测验过难或过易，会造成被试都通不

过或都通过的结果，这样，测验也就无鉴别力可言了

区分度与难度的关系：

区分度与信度的关系：

区分度有时也称鉴别力，它主要指测验对于不同水平的被试者加以

区分的能力。

区分度有时也称鉴别力，它主要指测验对于不同水平的被试者加以

区分的能力。

容范主观试题围的吻难度合程度作出判断。

统计分析法（定量方法）：根据前后两次测验的差异显著性，

验的内主管容效度。