医学统计学总结
医学统计学总结
一.绪论
医学统计学:基于概率论与数理统计学的基本理论与技术,在医学领域中研究随机性现象相关数据的收集、整理、分析及推断过程,并从而揭示这些现象背后客观规律的一门实践学科
2,医学统计学的主要内容:
1) 统计研究设计 调查研究设计和实验研究设计
医学统计学的核心理论与方法 作为研究者在医疗领域必须掌握的重要技能,在研究设计与数据分析方面掌握的基本理论与技术。其中包含以下三个主要模块:A. 数据收集及整理过程 B. 常用统计数据特征分析包括集中位置指标、离散程度指标以及相对数计算、相关性分析的方法、回归分析的步骤等 C. 统计数据推断分析的应用 包括参数估计方法的应用以及假设检验的过程等内容
3)医学多元统计方法 多元线性回归模型以及逐步筛选法的应用分别用于研究多个因变量与自变量之间的关系;同时采用判别函数分析对样本进行分类;聚类分析方法则用于识别数据中的自然群组;主成分提取法则通过降维技术提取主要信息;因子模型则用于探索潜在变量之间的关系;最后结合logistic回归与Cox比例风险回归模型对风险因素进行评估和预测
3,统计工作步骤:
明确设定研究目标及假设的前提下
2) 搜集材料
A, 搜集材料的原则 及时、准确、完整
B, 数据来源 医学领域的数据来源主要包括三个部分。首先是以常规报表形式收集的数据, 其次是日常记录材料, 最后是专项调查项目或实验室研究.
C, 资料贮存
3) 整理资料 a检查核对b设计分组c拟定整理表d归表
4) 分析资料 统计分析包括统计描述和统计推断
4,同质(homogeneity):指被研究指标的影响因素相同。
变异(variation):同质基础上的各观察单位间的差异。
变量(variable):在数据收集过程中,在基于研究目标系统性地确定同质的研究对象后,在通过测量和观察获取每个研究对象的某些特定属性后, 这些属性被称为变量
变量值:变量的观察结果或测量值。
变量类型
变量值表现
实例
资料类型
数值变量
离散型
定量测量值,有计量单位
产前检查次数
计量资料
连续型
身高
分类变量
无序
二分类
对立的两类属性
性别(男女)
计数资料
多分类
不相容的多类属性
血型(A,B,O,AB)
有序
多分类
类间有程度差异的属性
受教育程度(小学,中学,高中,大学…)
等级资料
- 总体(Population) 基于研究目标而确定的一组具有相同属性的研究对象,在该组中所有观察单位某一变量的数据值集合即为总体。其核心特性体现在所有观察单位上的一致性方面。
 
样本来自研究对象中随机选取的部分个体;这些个体的测量数据集合即为所抽取的样本。为了确保质量,样本必须满足** **的要求;该要求主要包括:来源于同质群体、具备足够的数量以及遵循严格的随机抽样方法。
统计量(statistics)描述样本变量值特征的指标(
样本率,
样本均数,
样本标准差)。
参数(parameter)描述总体变量值特征的指标(
总体率,
标准差,
总体均数)。
抽样误差(sampling error):因为存在个体间的差异,在同一总体中进行随机抽样时会得到不同的样本数量指标值。这些指标值与相应的总体参数之间也会产生区别。这也正是抽样研究所固有的特点。
随机事件(random event)对随机试验的各种可能结果的集合。
概率(probability) 描述随机事件发生的可能性大些哦的一个度量。
当随机事件A的概率P(A)小于或等于某个显著性水平α时,则称A为小概率事件;通常取显著性水平α为0.05时,则称满足条件的随机事件A为小概率事件。其统计学意义在于,在一次随机试验中认为小概率事件不太可能发生。
抽样误差
- 抽样误差(sampling error) 是源于抽样的现象,在研究中所获得的样本指标值与其对应的总体指标值之间存在的差距。在医学领域中通常将这种现象称为均数抽样误差或比例抽样误差等
 
2,样本均数的标准差
(简称标准误,standard error) 反映均数的抽样误差大小的指标。
大,抽样误差大;反之,
小,抽样误差小。
(3.1)
实际工作中
往往未知的,可用样本标准差s作
的估计值,计算标准误的估计值
。
(3.2)
3的标准误作用包括:A.评估样本均数分布的真实可靠性;B.构建一个包含总体均数置信区间的统计模型;此外还用于C.统计推断关于总体均值差异性的假设检验过程。
4,标准误的估计值
的用途:
a,描述抽样误差的大小;
b,总体参数的估计;
c,用来进行假设检验。
5,率的抽样误差:由抽样造成的样本率与总体率的差异称为率的抽样误差。
衡量率的抽样误差大小的指标是率的标准误
。
越小,率的抽样误差越小;
越大,率的抽样误差越大。
(3.3)
其中
为总体率。实际工作中,由于
往往是未知的,可用样本率p作
的估计值,计算率的标准误
的估计值
。
(3.4)。
标准差(s)
标准误
计算公式s=
(1)表示观察值的变异程度
(1)估计均数的抽样误差的大小
(2)计算变异系数CV=
100%
(2)估计总体均数的可信区间
(
,
)
(3)确定医学参考值范围
(3)进行假设检验
(4)计算标准误
简述标准差、标准误的区别与联系?
其意义在于区分两种指标所代表的不同内涵:标准差S用于反映一组数据在其均数周围分散的程度;而标准误则用于衡量样本统计量与总体参数之间的抽样误差大小。具体而言,在描述一组数据时:其数值越大则变量分布越分散;数值越小则说明各数据点更为集中;这也就意味着总体均数估计的可靠性越高。需要注意的是:两者虽然都涉及数据分布特征;但它们分别侧重于描述原始数据和统计量之间的差异性。
(1)估计均数抽样误差大小的方法即衡量样本均数围绕总体均数分布的离散程度指标;标准误数值越大,则样本均数与总体均数之间的差距越显著;反之则差距越小。(2)随样本量n变化的关系不同:当n增大时(而不是n趋近于无穷),样本标准差S会逐渐接近总体标准差σ(一个固定值),而标准误则会随之减少并趋向于零(此时不存在抽样误差)。 (3)应用范围不同:标准差指标用于描述变量x的数据分布状态、计算变异系数以及确定医学参考值范围等;而标准误指标则主要用于估计总体均数可信区间以及进行假设检验等统计推断工作。
联系:两者皆属于变异度指标;样本均数的标准差等于其标准误;两者呈正相关关系
标准差:
标准误:
二.分布
正态分布
1,正态分布的函数
其中
为总体均数,
为总体标准差,
为圆周率,
为自然对数的底,且仅
为变量。以
为横轴,以
为纵轴,当均数和标准差已知时即可绘出正态分布曲线。
为应用方便,将式中
进行变量变换,使原来的正态分布变为
的标准正态分布,亦称
分布。
被称为标准正态变量或标准正态离差,将
代入上述公式即得标准正态分布的密度函数
。
(2.17)
(2.18)
2,正态分布的特征
(1)正态曲线(normal curve)在横轴上方均数处最高。
(2)正态分布以均数为中心,左右对称。
(3)正态分布有2个参数(parameter),即均数
(位置)和标准差
(形状)。当
固定不变时,
越大,曲线沿横轴越向右移动;反之,
越小,则曲线沿横轴越向左移动。当
固定不变时,
越大,曲线越平阔;
越小,曲线越尖峭。通常用N(
,
)表示均数为
、方差为
的正态分布。用(0,1)表示标准正态分布。(4)正态分布在
1
处各有一个拐点。(5)正态曲线下面积的分布有一定规律。
3,常用的两个区间:
1.96
及
2.58
的区间面积分别占总面积的95%及99%。
4,正态分布的应用
1),制定医学参考值范围
a,正态分布法 适用于正态或近似正态分布的资料 双侧界值:
;单侧上界:
,或单侧下界:
。
b,对数正态分布法 适用于对数正态分布资料 双侧界值:
;单侧上界:
,或单侧下界
c,在统计学中常被采用于偏态分布的数据以及含有单端或双端缺失数据的资料中。两侧临界值:
和
;单侧上界:
,或单侧下界:
。
2)正态分布是多种统计方法的理论基础 如t分布,F分布,
分布都是在正态分布的基础上推导出来的,
该类分布在建立时基于正态分布模型。此外,在特定条件下(如样本量足够大),t-统计量、二项概率以及泊松频率均趋近于正态分布在统计学中的应用。
t分布
1,t分布:
(3.5)
t分布的特征为:
1. 以0为中心,左右对称的单峰分布。
2. t分布曲线形态变化与自由度的大小有关。自由度
越小,则t值越分散,曲线越低平;自由度
逐渐增大时,则t分布逐渐逼近正态分布(标准正态分布)。当
=
时,t分布为u分布。t界值表附图中非阴影部分面积的概率为:
2, 总体均值的估算:以样本统计量估测总体参数的过程称为参数推断,在统计推断中扮演着关键角色。计算均值的方法共有两类。其一是直接应用统计量进行评估
估计总体参数
可称为点值估计。
由于抽样误差的存在,
此方法难以准确地进行。
以下介绍第二种方法:
区间估计(interval estimation)法。
该方法按一定的概率
100% (1-
可称为点值估计。
由于抽样误差的存在,
此方法难以准确地进行。
以下介绍第二种方法:
区间估计(interval estimation)法。
该方法按一定的概率
100% (1-
推断总体均数所在范围的方法也被称为置信区间的估计(estimation of confidence interval),又被简称为置信区间法(method of confidence interval estimation)。在实践中通常选择的置信水平为95%和99%,因此分别对应着两种常见的置信度——即分别为95%和99%的置信区间。该方法共有三种不同的计算方式
(1)
未知且n小 按t分布原理用式(3.6)计算可信区间。
由于
将
代入,得
则总体均数的100(1-
)%可信区间的通式为:
(3.6)或写成 (
,
)。
(2)
未知,但n足够大时(n>100) t分布逼近u分布,按正态分布原理,用式(3.7)估计可信区间。
(
) (3.7)
(3)
已知 按正态分布原理,用式(3.8)估计可信区间。
(
)(3.8)
标准正态分布(u分布)与t分布有何异同?
共同特点:t分布与标准正态分布(u型曲线)均围绕着中心位置在0处展开。其中,标准正态分布在统计学上可被视为t分布在自由度趋于无穷大时的一种特例形式。
不同点:称其为抽样概率密度函数,则u分布在统计学中被视为理论概率模型;在标准正态概率密度函数之下(μ=0,σ²=1),t分布在均值附近出现更低的概率密度;相比标准正态概率密度函数而言,在均值附近出现更低的概率密度的同时其尾部区域则会更加厚重;当自由度变化时其形态会因自由度的变化而呈现不同的特征
二项分布
Binomial distribution is a probabilistic model that characterizes the statistical behavior of a random phenomenon characterized by a finite number of independent trials, each with two mutually exclusive outcomes.
二项分布概率公式:
(3.9)
式中n为独立的贝努力试验次数,
为成功的概率,(1-
)为失败的概率,X为在n次贝努力试验中出现“成功”的次数,
在n次独立试验中可能出现的结果总数,在此被定义为二项式系数(binomial coefficient)
2,二项分布的应用条件:
(1)各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡。
(2)已知发生某一结果(阳性)的概率为
,其对立结果的概率为1-
,实际工作中要求
是从大量观察中获得比较稳定的数值。
(3)n次试验在相同条件下进行,且各个观察单位的观察结果相互独立。
3,二项分布的性质:
A,二项分布的均数和标准差 在二项分布的资料中,
当
和n已知时,它的均数
及其标准差
如下:
=n
(3.11)
(3.12)
若均数和标准差不用绝对数表示,而是用率表示时,即对式(3.11)(3.12)分别除以n,得:
(3.13)
(3.14)
是样本率的标准误的理论值,当
未知时,常用样本率p作为
的估计值,则:
(3.15)
B值表示二项分布的累积概率(cumulative probability),其计算通常采用左侧累积法与右侧累积法两种方式。
从阳性率为
的总体中随机抽取n个个体,则
(1)最多有k例阳性的概率
(3.16)
(2)最少有k例阳性的概率
(3.17)
D,二项分布的形状取决于
和n的大小:
(1)当
=0.5时,分布对称;当
<0.5时,分布呈正偏态,且固定n时,
越小,分布越偏;当
0.5时,分布呈负偏态,且固定n时,
越大,分布越偏。
(2)对固定的
,分布随n的增大趋于对称。
4,总体率的估计
在总体率的推断中,我们通常采用点估计与区间估计两种方法。其中点估算是通过样本数据直接计算得到的一种简化的推断方式;而区间估算是通过统计方法确定总体参数可能存在的数值范围。其理论基础主要由样本人数n以及阳性事件的发生概率p两个关键因素共同决定,在具体应用时需要根据不同情况选择合适的计算公式。
(一)查表法 在样本数量较小时特别是在n≤50的情况下以及p值接近极端值时 通过应用二项分布的概率性质来推断总体率的置信范围
(二)正态近似法 当样本量n足够大,并且其中所考察的比例p及其补率都不低于一定数值(例如0.1),即满足np和n(1-p)都大于等于5时,在这种情况下,比例p的抽样分布将接近于正态分布;总体率为π
的可信区间可按下列式(3.17)进行估计。
(3.17)
Poisson分布
1,Poisson分布 泊松分布是在
当样本量n趋近于无限大时, 二项分布呈现出其极限表现形式. 这种方法特别适用于考察三个维度内的事件发生频率: 即一定时间段内的人群中的发病率, 一定空间范围内的致病菌数, 以及特定时间内某一区域内的事故率等.
X=0,1,2
(3.19)
式中
=n
表示总体均数X即为单位时间或单位空间内某事件发生的次数;其中e被称为自然对数的底值约为2.71828;在实际应用中P(X)亦可按照递推公式按照式(3.20)进行计算。
(3.20)
2,Poisson分布应用条件:
A, 要求事件的发生是相互独立
B, 发生的概率相等
C, 结果是二分类
3,Poisson分布的性质:
A, 该分布是一种单参数的离散型分布,其参数为
,它表示单位时间或空间内某件事平均发生的次数,又称强度参数。
B, Poisson分布的方差
和均数
相等,即
=
C, Poisson分布的累计概率
(1) 最多为k次的概率
(2) 最少为k次的概率
4,Poisson分布的图形
已知
,就可按公式计算得出X=0,1,2,
时的P(X)值,以X为横坐标,以P(X)为纵坐标作图,即可会出Poisson分布的图形。
值越小,分布越偏,随着
的增大,分布越趋于对称,当
=20时,分布接近正态分布,当
=50时,可以认为Poisson分布呈正态分布N(
,
)按正态分布处理。
5,Poisson分布具有可加性
6,总体参数的估计
由样本均数(样本计数)X估计总体均数
包括点估计和区间估计在内的两种情况中,在应用区间估计方法时需要根据样本数量n以及样本均值X的大小来决定具体采用哪种方法:当n较小时采用查表法,在n较大时则采用正态近似法。
(一)查表法
当样本计数X
时,用X值查附表poisson分布
的可信区间,可得总体均数
的95%或99%可信区间。
(二)正态近似法
当样本计数X>50时,可用正态近似原理下面公式求总体均数
的95%或99%可信区间
正态分布、二项式和泊松分布的关系 :
二项式概率模型(binomial distribution)用于刻画仅包含两种互斥结果的离散型随机事件的概率规律性。Poisson概率分布在试验成功概率π趋近于零且样本容量n趋于无穷大的情况下可视为二项式概率模型的极限形式。当统计量服从t分布时,在自由度趋于无穷的情况下其极限形式则对应标准正态变量。
可信区间与参考值范围的区别 :
(1)参考值范围是基于同质群体估算包含一定比例个体值的范围内界。而可信区间则是基于特定置信水平估计总体参数所在的具体范围内界。(2)相同的比例水平下而言之,则可发现两者在统计学意义上存在本质差异。(3)从实际应用角度来看之,则可明确指出95%参考值范围指的是同质人群群中约95%个体测量指标的实际数值分布界限。(4)同样地,在计算方法上而言之,则需明确区分两种指标的具体计算方式:当观察指标呈正态分布特征时,则其95%参考值范围计算公式为:X_{\text{ref}} \pm 1.96S;而对应于该指标均数的95%可信区间则采用t分布方法进行计算
±1.96s。总体均数95%可信区间的公式是:
采用标准差计算的标准误差;而采用标准误作为误差估计指标。(5)在应用上可明确区分:置信区间用于估计总体均数;而参考值范围则用于判断观察对象某项指标是否在正常范围内。
简述检验假设与可信区间的联系与区别 。
(1)置信区间用于估计总体参数所在的范围;假设检验则用于判断总体参数之间是否存在显著差异。其中前者旨在估计总体参数的具体数值范围;后者则关注的是样本数据所反映的情况是否具有统计学意义。(2)置信区间不仅可以回答上述假设检验相关的问题;但它无法提供确切的P值范围;只能指出在设定显著性水平α下结果是否具有统计学意义。(3)此外;置信区间还可以反映变量间是否存在实际意义的区别。
统计图表
1,绘制统计图的基本要求:
A, 根据资料性质和分析目的据顶适当图形。
B, 标题应说明资料的内容、时间和地点,一般位于图的下方。
C, 图的纵轴和横轴应标注变量名称及其对应的计量单位,并采用均匀分布的尺度;通常从左至右、下至上排列,并按照从小到大的顺序设置
D, 以便于呈现美观且易于对比的形式, 统计图的长宽比例通常采用7:5的比例, 偶尔也可以进行调整以满足特定需求
E,在对比不同事物时可以通过不同颜色或线条区分,并通常配以图例辅助说明;同时建议避免过度使用以防止混淆。
2,常用统计图的适用条件与绘制
条图(bar graph)以宽度相等的条块高度表示各分类资料的数量大小,并用于展示它们之间的比较关系。
圆图(pie graph) 常用于表示百分比资料中的各项比例,并用来展示事物各组成部分在整体中所占的比例及其结构
3. 百分条图(percent bar) 意义及适用资料同圆图,也称构成条图。
4. 线图(line graph) 线图常用于展示连续性数据的变化趋势,并通过不同线段的升降来反映数据波动情况;此外还可以用来显示某一指标随另一因素(如时间)的变化关系
5. 直方图(histogram) 直方图用于表达连续性资料的频数分布。
6.散点图(scatter diagram)散点图基于直角坐标系中数据点的分布密度及变化趋势来表示两现象间的关系。常用于在分析数据间的相关性之前进行
单变量资料
一,数值变量
统计描述
1,频数表的编制 求全距 定组段和组距 列频数表 画频数图
2,频数分布的两个重要特征:集中趋势和离散趋势
3,频数分布可以分为正态分布和偏态分布
4,在频数表中用途:展示数据的分布类型及特征;从而有助于选择合适的统计方法;方便后续计算相关指标及实施统计分析;能够帮助识别某些极端值或异常值
5,集中趋势的描述:均数 几何均数 中位数 百分位数
6,均数(mean):算术均数的简称。常用
=
=
表示。
将一组数据从小到大排序后处于中间位置的数值称为中位数(Median),用符号M表示。该统计量特别适用于分析偏态分布的数据以及仅有一端有明确数值范围的数据的情况。
8,百分位数(percentile)是一种位置指标,用
表示。一个百分位数P
将一组观测数据分为两部分,在理论上有x%的数据点低于该分界线,并有(100-x)%的数据点高于该分界线。此方法适用于基于非正态分布资料确定医学参考值范围。
9,离散趋势的描述:全距(range) 四分位数间距(quartile) 方差 标准差
10, 全距(range) 也被称为极差或间距,在统计学中表示一组同质观察值的最大与最小之差。它能够反映数据分布的分散程度。其优点在于计算简便易行且易于理解;然而也存在以下局限性:首先, 全距仅基于最大值与最小值之间的差距, 忽略了中间数据的变化情况, 因此无法全面反映数据的整体波动性;其次, 当样本量差异较大时,则不宜仅凭全距来判断两组数据间的离散程度差异
11 四分距(quartile)上四分位与下四分位之间的距离。主要用作度量偏态数据以及单侧或双侧无确切数值资料的离散程度
12,方差(variance)离均差的平方和表示。
- 标准差(standard deviation)的作用:a. 用于衡量各观测值围绕均值的分散程度;b. 用于计算数据集的相对变异性;c. 在 conjunction with the mean, 评估不同取值出现的可能性区间;d. 用于计算抽样分布的标准差
 
(总体) s=
(样本)
14,变异系数(coefficient of variation)被广泛应用于评估其测量单位差异较大或平均值间存在显著差异的情况.CV=
100%
假设检验
假设检验亦称显著性检验(significance test),其核心思想是先对研究对象的某一特征做出某种假设。
如设定该特征取特定数值;两个研究对象的该特征相等;该特征服从某种分布或两者的分布一致等。
然后依据样本信息选择适当的统计方法推断。
从而判断这一假设应当被拒绝还是无法拒绝。
2,假设检验的一般步骤:
根据研究实际需求设立假设,并在研究基础上设定显著性水平;基于研究实际需求选择单侧或双侧检验方法。
(2)确定检测手段与统计指标:基于研究设计的类型及目标需求挑选合适的分析工具,并通过相关计算得出相应的指标数值;
(3)计算P值并判断结论。当t \geq t_{\alpha,v}时,则P \leq \alpha;按照检验标准拒绝H_0、接受H_1、可以认为差异具有统计学意义;反之则无统计学意义。
3,假设检验时应注意的事项:
(1)需建立科学合理的抽样研究方案;研究样本应从具有相同特征的研究对象群体中随机选取;确保各组之间在基础特征上具有相似性,并保证数据的一致性;同时要求所有可能影响结果的关键变量在对比组间尽量保持一致或相近的状态。
(2)科学地选择检验方法;基于现有的数据类型、研究设计、分析目标以及样本量等因素选取合适的统计分析方法;若不符合要求,则需要进行相应的调整或修正。
(3)准确把握"差别无显著性"的概念,并认识到差异具有统计学意义;不应将其视为相差悬殊,并误以为该指标的实际应用效果显著。
基于假设的推断结果属于概率性质,在得出结论时应当避免绝对化表述;设定标准的同时需认识到其具有相对性,在报告结果时应当明确列出所使用的统计量及其对应的精确P值范围
(5)注意是单侧检验还是双侧检验
I型错误和II型错误 :
I型错误(type I error)拒绝了实际上成立的
,即样本原本来自
的总体,由于抽样的偶然性得到了较大的t值,所以拒绝了
,接受了
,这类弃真错误称为第一类错误,犯第一类错误的概率是
。
II型错误(type II error)是不拒绝实际上不成立的
,即“存伪”即样本原本来自
整体上而言, 然而由于抽样的偶然性因素存在, 在分析中我们观察到较低的t统计量, 并且计算出较高的P值。最终结果表明未拒绝
,这类存伪错误称为第二类错误,犯第二类错误的概率是1-
正态性检验方法:通过计算样本均值和标准差来描述其分布特征;在运用t检验分析小样本数据时,则需要满足样本来自正态分布总体的前提条件。
两变量方差齐性检验 :独立样本t检验与单因素多组均数比较采用的是完全随机设计,在统计推断时都必须满足各自的理论假设前提条件——即各组数据都应服从正态分布,并且各自对应的总体具有相同的总体方差这一前提假设。对于独立样本的情况,在进行t检验时需满足等方差假设。
(4.12)
式中
为较大的样本方差,
为较小的样本方差,
为分子的自由度,
为分母的自由度,相应的样本例数分别为
和
如果两个总体的方差相等,则其数值通常与1相差不大;计算所得的F值显著高于预先设定的标准范围,则可判定两个样本各自所属总体的方差不一致。
t检验
t检验:常用于总体标准差未知且小规模研究中的小样本数据与总体数据之间的对比分析,在成组研究设计下进行两个小规模组别间平均值比较以及配对研究设计下分析两组实验对象间的平均值差异。
t检验的应用条件为:
a) 当n值不超过50时适用;
b) 样本需遵循正态分布;
c) 在比较两个样本均数时需满足两个总体方差齐性
单样本t检验(single-sample t-test):通过计算样本均值与已知总体均值之间的差异程度来判断两者之间是否存在显著差异。其目的是推断所研究样本所代表的未知总体的均值情况。
与已知总体均数
有无差别。
(
) (4.1)
式中
为样本均数,
为已知总体均数,s为样本标准差,n为样本含量,
为自由度。
步骤如下(可为u检验)
1)建立假设,确定检验水准。
H0:μ=μ0 H1:μ≠μ0
α=0.05
2)计算统计量。
已知,(总体均数)μ0=,n=,
=,s=
3)确定P值,做出推断结论。
按照自由度公式v = n - 1进行计算后查阅t临界值表得到P > 0.05(或P < 0.05)。根据α检验标准如果不拒绝零假设则说明在现有数据下无法得出变量间存在显著差异的结论;反之如果拒绝零假设则可接受备择假设即据此数据资料而言并不能认为变量间存在显著差异
2, 配成对子的实验资料采用t检验 包括三种情形: ①将实验对象按照一定的条件配成对子(例如, 同一物种、相同体重等级、相同年龄组或性别一致), 然后再随机分配每一对中的两个实验体到不同的处理组; ②同一个实验体先后接受两种不同的处理方案, 其目的就是推断这两种处理方案的效果是否存在显著差异; ③同一个实验体在经过某种特定的处理前后进行比较, 其目的是为了验证这种特定的处理措施是否具有显著效果。
在配对设计资料中进行t检验(即paired t-test用于处理依赖样本)的核心步骤是首先计算得到各对差值d的均数
,当2种处理结果无差别或某种处理不起作用时,理论上差值的总体均数
应该为0,故可将配对设计资料的t检验视为样本均数
与总体均数
的比较。
(4.2)
式中
为样本中各对差值d的均数,
为样本差值的标准差,n为对子数,
为自由度。
先列表求差值d和
1)建立假设,确定检验水准。
H0:μd =0 H1:μd≠0
α=0.05
2)计算统计量。
已知,n=,∑d=,∑
=
3)确定P值,做出推断结论。
基于v=n-1的自由度原则下查阅t临界值表后得出P值大于等于或小于等于α=0.05水平显著性标准依据α检验标准未拒绝零假设或者拒绝零假设并接纳备择假设依据所收集的数据目前尚不足以支持认为两者间存在显著差异
3, 成组设计资料两样本均数比较的t检验(two-sample t-test for independent samples) :在临床医学研究领域中, 评估配对设计下的处理效果较为复杂, 因此通常采用各自从2个不同总体中随机抽取样本, 进行独立样本t检验以对比其平均值差异。其主要目标是推断两个总体之间是否存在显著差异。通常情况下, 在满足条件时要求两个样本量尽可能接近。
(4.3)
可为t,u检验
1)建立假设,确定检验水准。
:μ1=μ2
:μ1≠μ2
α=0.05
2)计算统计量。
已知,n1=,∑X1=,∑
=,n2=,∑X2=,∑
=
1=∑X1/n1=,
2=∑X2/n2=
(已知,n1=,
1=,s1=,n2=,
2=,s2=
3)确定P值,做出推断结论。
根据自由度公式v=n₁+n₂-2, 参考t界值表, 查得P≥(或≤) 0.05, 按照α检验水准, 不拒绝零假设( 或拒绝零假设, 接受备择假设), 据此可认为变量间的差异无( 或存在)统计学意义
检验
U检验(U-test or Z-test) is named after the U statistic. It is a non-parametric statistical test used to compare two independent samples. This test can be applied when the sample size n is sufficiently large (n > 50), or when n is small but the population standard deviation is known.
已知时的样本均数与总体均数的比较、成组设计两样本均数的比较。
1,单样本u检验(one sample u-test):
(4.4)
式中
为样本均数,
为已知总体均数,s为样本标准差,n为样本含量。
- 配对设计中两个样本均数之间差异的u检验法(independent two-sample u-test):
 
(4.5)
式中
,
分别为两样本均数,
为两样本均数差值的标准误,
、
为分别为两样本的方差,
、
分别为两样本例数。
标准正态分布(u分布)与t分布有何异同?
相同点: t 分布与标准正态分布在中心位置上均位于数值零的位置。其中的标准正态分步可视为t分步的一个特殊形态(对应自由度趋于无穷大)。就其性质而言,则两分步存在显著差异:首先t分步是一种抽样应用中的概率分步形式,在实际操作中具有广泛的应用价值;而标准正态分步则是作为理论基础的重要分步形式被广泛应用于各种统计分析之中。其次,在概率密度函数的具体形状特征上t分步呈现出两个明显的负面特性:其峰值较低且尾部区域呈现更为陡峭的形态特征;此外t分步的概率密度在其自由度发生变化时会随之产生显著的变化,在这种情况下当自由度趋于无穷大时则会趋向于标准正态分步的表现形态;最后就其具体的形态特征而言t分步呈现出显著的多样性特征即随着自由度的不同取值将形成不同形态的具体表现形式因而形成了无数种不同的t分步类型
方差分析
方差分析的核心概念:基于研究目标以及实验设计的类型,在统计学中将总变异性分解为各组数据与其均值之间的偏差平方之和SS(Sum of Squares),并相应地分配自由度df(degrees of freedom)。
将研究指标按照实验设计的要求划分为若干个相关的部分,并计算各相关组别内部及之间的变异程度;其中组间方差主要反映研究对象之间存在的自然差异以及抽样过程中产生的误差影响;其余各组别之间的方差进行比较以获得F统计量,并根据计算得到的F值大小确定对应的概率P值,在此基础上作出相应的统计推断结论
2,方差分析的优点:
(1)不受比较组数的限制,可比较多组均数
(2)可同时分析多个因素的作用
(3)可分析同类间的交互作用
3,方差分析的应用范围:
(1)2个或多个样本均数间的比较
(2)分析2个或多个因素间的交互作用
(3)回归方程的线性假设检验
(4)多元线性回归分析中偏回归系数的假设检验
(5)两样本方差齐性检验
完全随机设计的方差分析:
是将总变异中的离均差平方和SS和自由度
分别分解成组间和组内两部分,SS
/
和SS
/SS
分别为组间变异(MS
)和组内变异(MS
),两者之比即为统计量F。
(1)总离均差平方和及自由度:
SS
=
(5.2)
=
(5.3)
(2)组间离均差平方和、自由度和均方:
SS
=
(5.4)
=
(组数-1) (5.5)
MS
=
(5.6)
(3)组内离均差平方和、自由度和均方:
SS
=SS
-SS
(5.7)
=N-k (样本量-组数) (5.8)
MS
=
(5.9)
当假设检验结果拒绝零假设(H_0),并接受备择假设(H_1)时,在各组均值之间存在显著差异或并非完全相同时,则需对各组均值进行两两比较即为多重比较(multiple\ comparisons)。采用q检验法来进行分析
(5.14)
式中
在方差分析中,内部均方面用于表示各组之间的差异程度。如果是涉及两个因素或以上的情况,则内部均方面称为误差项均方(EMS)。
;
和
分别为两样本的样本含量。
配伍组设计资料的方差分析
配伍组设计也称为随机区组设计(randomized block design),用于多个样本均数间的比较通常采用无重复观测数据的两因素方差分析(two-way ANOVA)。这两个因素包括主要的研究变量和配伍组变量。两因素方差分析将总变异中的偏差平方和及其自由度划分为处理组间、配伍组间以及误差三部分。
变异来源
离均差平方和
自由度
均方MS
F
总
-C
处理组间
k-1
配伍组间
b-1
误差
SS
-SS
-SS
(k-1)(b-1)
,
为配伍组数
二,分类变量
统计描述 常用相对数,即率,构成比,和相对比对分类资料进行统计描述
1,率(rate):率又称频率指标,它说明某现象发生的频率或强度
率=
- 构成比(proportion):也被称作构成指标。它用于描述某现象内部各组成部分所占的比例及其分布情况。通常用百分数来表示。
 
构成比=
第三条说明:相对比率(relative ratio)也被称为比率。它是指两个相关指标之比值的表现形式。具体而言即是将指标A与指标B相比较时所得的结果表示为若干倍或百分之多少的数量关系。需要注意的是指标A与指标B既可以具有相同的属性也可以具有不同的属性
相对比=
4, 应用相对数时应注意的事项:
(一) 计算相对数的分母不宜过小。
(二) 分析时不能以构成比代替率。
(三) 对观察单位数不等的几个率,不能直接用相加求其平均率。
(四) 资料的对比应注意可比性。
(五) 对样本率(或构成比)的比较应遵循随机抽样,要做假设检验。
(六) 区别清分子分母。
5,率的u检验
1),样本率与总体率比较:目的是推断样本率所代表的总体率
与某已知总体率
是否相等。根据资料的不同情况,可以采用不同的假设检验方法:①若
很小,可用Poisson分布原理做检验;②若
不太靠近0或1时,可用二项分布原理做检验;当样本含量n足够大时,或
且
,二项分布逼近正态分布,可用u检验计算其样本检验统计量。
(6.1)
式中p为样本率,
为已知总体率(常为理论值或标准值),n为样本含量。
两样本率之间的比较旨在判断两个总体率之间是否存在显著差异。当两个样本满足正态近似条件且样本含量较大时, 可以采用u检验法进行分析; 其计算公式如下:
(6.2)
式中
、
分别为两个样本率,
、
分别为两样本含量,
为两个样本率之差的标准误,
为合并阳性率,
,
、
为两个样本阳性例数。
四格表资料的
检验
用于分析分类变量数据中不同群体间(或各组成部分间)总体率(或构成比)是否存在显著差异;同时探讨两个分类标准之间的关联性;并评估观察频数与理论分布的一致性程度。
(6.3)
式中A代表实际频数,T代表理论频数。格子理论频数
可用同样方法求得,其计算公式为:
(6.4)
(6.5)
四格表资料的专用公式:
(6.6)
式中a、b、c、d分别为四格表的实际频数=a+b+c+d。
四格表的
值的校正。
①当所有T>5,n>40时用上述公式;
②当有1<T<5,且n>40时,需进行连续性校正:
(6.7)
(6.7)
③
或n<40时,需用四格表资料的确切概率法。
行×列表资料的
检验 。
(6.9)
式中n是总例数,A是每个格子的实际频数,
,
分别为某格子对应的行合计和列合
行×列表
检验注意事项
(1)X²检验要求观察频数不宜太小,如果观察频数过小则可能导致结果偏差.通常建议行×列表资料中不应超过1/5的格子具有理论频数值低于5的情况,或者存在某个格子具有理论频数值小于1的情况.处理方法:最好通过增加样本数量来提高观察频数值,从而提升其对应的理论频数值;此外还可以采用精确概率法进行校正;或者通过合理地合并相邻类别来解决此问题.但需要注意的是这种方法虽然能解决问题但会牺牲部分信息并可能破坏数据的随机性.
(2)单向有序行×列表的统计处理:将效应按强弱分为多个等级后,在比较各处理组效应是否存在显著差异时,则采用秩和检验或Ridit分析。
(3)当多个样本率比较的
该研究结果表明,在假设条件下通过样本数据进行了统计学分析。结果显示拒绝零假设(H₀),这表明各总体率或总体构成比之间总的变化具有显著性差异;然而这并不意味着它们之间都存在显著差异关系;如有兴趣进一步探讨这些问题,请考虑采用卡方分割法进行深入分析。
配对四格表资料的卡方检验 :
(一)关联性分析:
(1)建立假设检验,确定检验水准。
H0:两种方法的检验结果无关系
H1:两种方法的检验结果有关系
α=0.05
(2)计算统计量X2值。
①n>=40,T>=5,
②n>=40,1<T<5,
③n<40或T<1,四格表确切概率法。
(3)确定P值,做出推断结论。
X2>3.84,P<0.05,按α=0.05检验水准,拒绝H0,接受H1,可以认为两种方法的检验结果有关系。
(二)差别性检验:
(1)建立假设检验,确定检验水准。
H0:两总体的B=C
H1:两总体的B不等于C
α=0.05
(2)计算统计量X2值。
①b+c>40时:
②b+c<40时,
(3)确定P值,做出推断结论。
X2>3.84,P<0.05,按α=0.05检验水准,拒绝H0,接受H1,可以认为两种方法的检验结果有差别。
(X20.05(1)=3.84, X20.005(1)=7.88)
非参数检验
参数检验和非参数检验的优缺点:
其优势在于充分利用了数据信息,并显著提升了统计分析效率;然而,在数据标准较高且适用场景较为有限的情况下存在一定的局限性。其优势包括以下几点:(1)由于其对数据分布无特殊要求而具有广泛的适用性;(2)不受总体分布及变量类型的影响;(3)操作简便且易于掌握。然而,在某些情况下使用时可能会导致信息未被充分利用
配对设计的符号秩和检验
Wilcoxon符号秩和检验(Wilcoxon signed rank test)是一种判断其差异是否来自以零为中位数的群体的方法;它不仅可用于配对设计差异的比较以及单一样本与群体中位数间的比较。
(一)基本思想 其假设
是差值的总体中位数等于0,备择假设
是差别的总体中位数不等于0,如果差别太大,就拒绝
;反之,不拒绝
。
(二)方法步骤:
- 设立检验假设,设定显著性水平α。
 - 计算统计量T的具体数值:
a. 首先计算各组观察指标之间的差异d_i;
b. 其次将所有非零d_i按照大小顺序排列并赋予相应的符号等级;
c. 最后分别求正负等级之和以获得统计量W。 - 然后根据统计量W查临界表或利用计算机软件精确计算对应的P-value;
 - 最后依据所得到的P-value与设定的显著性水平α进行比较从而得出研究结论。
 
完全随机设计两样本比较的秩和检验
亦被称作两组样本之间差异性分析的方法,在应用中主要通过计算并比较两组样本观测值排序之和来推断这两个样本各自所代表的概率分布是否存在显著差异
成组设计多样本比较的秩和检验 ,
利用多个样本的秩和来推断各样本分别代表的总体的分布有无差别。
配伍组设计的秩和检验M检验
秩和检验步骤:
(1) 建立检验假设,确定检验水准。
H0:?和?的?总体分布相同。
H1:?和?的?总体分布不同。
(2) 计算统计量T值。
1)编秩 将2组数据由小到大统一编秩,相同数据取平均秩次。
2)计算T值 首先对各组数据分别计算其相应的R_i值,并求出各R_i之和即为该组对应的总秩次。如果两样本容量相等,则可任选其中任意一组的总秩次作为检验统计量T;若两样本容量不等,则应选用容量较小组对应的总秩次作为检验统计量T。
说明
3)确定P值,做出推断结论。
查阅相应的T界值表(用于成组设计)。如果计算得到的T统计量位于临界范围之内,则统计学上不显著(P> ),以α= 水准下不拒绝零假设H₀, 可以认为两总体分布相同;反之,则统计学上有显著意义(P≤ ), 在α= 水准下拒绝零假设H₀, 接受备择假设H₁, 可以认为两者分布位置存在差异
如n1或n2-n1超出了成组设计T界值的范围,可用正态近似检验:
如相同秩次较多(>25%),应校正:
uc=?>1.96,P<0.05。按α=0.05检验水准,,拒绝H0,接受H1,可以认为两的分布位置不同。
非参数统计检验的适用条件:
(1)样本数据不符合参数检验方法的应用前提(即总体服从正态分布且各组方差齐性)或总体的分布类型未知;(2)顺序数据或称等级资料;(3)若样本分布明显偏态且难以找到合适的变量转换方法使之满足参数检验的前提条件;(4)当样本数据满足参数检验的要求时,则应优先选择参数法分析处理以避免降低检验效能。
直线回归方程的应用 :
(1)具体刻画两个变量间的相互关联;(2)通过回归模型实现预测目标;(3)应用回归分析方法对现象进行统计调节
应用直线回归的注意事项:
(1)作回归分析要有实际意义;
(2)在直线回归分析中使用的资料通常要求因变量Y是从正态总体中随机抽取的数据;而自变量X则既可以被视为服从正态分布的随机变量,则当X为精确测量或严格控制时
(3)在实施回归分析的过程中,在开始分析前制作散点图。若观察到呈线性分布的趋势,则选择线性回归模型进行计算;若有明显非线性特征,则需考虑数据变换或采用曲线拟合的方法。
(4)对离群值应检查核对,予以修正或剔除;
(5)回归直线不要外延。
简述直线相关与回归的区别与应用。
区别:(1)数据类型方面,在相关分析中要求两个变量均为随机变量且服从双变量正态分布;而回归分析中仅要求因变量Y服从正态分布,并能精确测量或严格控制自变量X。(2)统计学角度上,在相关分析中反映的是两变量间的伴随关系这一相互依存的关系;这种伴随关系不一定具有因果性;而在回归分析中反映的是两变量间的函数依存关系;具有明确的自变因素X与因变效应Y之分;这种依存关系可能是因果关系或从属关系。(3)在实际应用中,在相关分析中的目的是为了量化两个随机变量之间的线性关联程度及方向;而在回归分析中则是为了建立一个能定量描述自变因素X与因变效应Y之间数量变化关系的函数表达式。
(1)变量间关系的方向性相同,在同一资料中其r值与b值的正负号一致。(2)从假设检验的角度来看,在同一样本数据下进行t检验和r检验会得出相同的结论:tr=tb。(3)相关分析与回归分析具有内在联系:相关系数的平方r²(即决定系数)表示引入相关变量后总平方和减少的比例。(4)基于最小二乘法的II型回归模型中,r值与b值可以通过特定公式相互转换,
。
简述相关系数和回归系数的联系与区别。
区别:(1)两种统计指标的作用存在差异:回归分析中的回归系数衡量的是自变量对因变量的影响程度,在数值上表现为当自变量每增加(减少)一个单位时因变量的平均变化量;而相关分析中的相关系数则反映的是两个变量间的关联方向及紧密程度,在数值上则表示两者之间的线性关联强度。(2)两者在实际应用中具有明显区别:其中回归分析中的b值代表自变量每变化一个单位因变量的变化幅度;而相关分析中的r值不仅体现了数据间的关联性还能够推断其内在联系的方向性特征。(3)具体的数学运算方法也有所不同
。(4)取值范围不一样:-∞<b<+∞,-1≤r≤1。(5)单位不同:b有单位,r没有单位。
联系:(1) r与b值可相互换算,
(2) r与b具有相同的符号;(3)r与b之间的假设检验具有等价性;(4)回归分析能够解释相关的变量间关系。其平方值r²(亦称决定系数)表示回归平方和占总离均差平方和的比例,并因此在引入相关变量后成为总离均差平方和中被归入回归平方和的部分所代表的可解释变异。
判别分析:discriminant analysis是一种基于多变量观测数据的方法。它通过建立分类准则,在已知类别基础上预测未知类别中的新样本的归属。
协方差分析(covariance analysis):它是一种将线性回归与方差分析相结合的多元统计方法,在实验中用于抵消混杂变量对方处理效果的干扰,并以增强结果的真实性和可靠性作为目标
该研究将因变量Y的残差进行分类处理, 其中一部分用于分析均数间的变异来源, 另一部分用于评估个体差异的影响. 在满足以下条件时可采用该方法:A. 所有样本均源自正态分布的总体, 并且各总体方差齐性; B. 各处理组的总体回归效应具有相同的数量级, 且都不为0.
Fisher准则 : 从方差分析的角度来看, 要求将样本点通过投影使其在类别间的分散程度与类别内的集中程度之比达到最大值。
