Advertisement

医学统计学知识点总结

阅读量:

知识点

统计学基于概率论与数理统计的核心理论和技术手段,在数据收集与归纳的基础上进行分析与研究,并能够呈现数据特征并进行说明的一门科学分支。

医学统计学基于应用统计学的基本理论与技术,在医疗保健等相关领域中进行数据信息收集、整理、分析以及展示与解释的一门系统科学。

3. 统计软件包是对资料进行各种统计处理分析的一系列程序的组合。

4. 统计工作的基本步骤:研究设计、搜集资料、整理资料和分析资料。

5. 科研成果的优劣程度主要由其研究方案的质量所决定。作为统计工作的核心内容之一,研究方案的设计对于确保统计数据的准确性和可靠性具有重要意义。而这一科学方法的选择与优化则对整个统计项目的成功与否起到至关重要的作用。

统计分析涵盖两个主要方面:统计描述与统计推断。其中统计描述是对样本(即研究对象)分布情况及其特征值进行系统的分析与表达;而统计推断则基于所获得的样本信息去推测未知的整体情况

7. 医学原始资料的类型有:计量资料、计数资料、等级资料。

8. 测量数据是通过定量分析方法对每个观察对象的某个指标变量进行测定而获得的数据结果。

计数资料是指将观察试件按照某种特性(属性)或类型进行分组,并统计各组试件数量所形成的资料

分类资料是指将样本单位按照其性质强弱或类别深浅进行分组并统计各类别中的样本数量的一类资料其各个属性之间具有不同程度的特征该分类层次的排列顺序具有固定的逻辑关系

11. 同质:是指所研究的观察对象具有某些相同的性质或特征。

12. 变异:是同质个体的某项指标之间的差异,即个体变异或个体差异性。

目标人群是基于特定研究目标筛选出的一群具有相同特征的研究对象群体。样本群是该目标人群中的一个典型代表群体中的成员。

通过从调查对象中随机抽取有代表性的样本来实施的一种研究方法,在通过对收集到的样本数据进行分析处理后进而推断整体特征。由于随机抽样的特性所导致的样本统计量与总体参数之间、不同样本统计量之间的偏差 被称为抽样误差,在实际应用中其来源往往来自于调查对象内部存在的自然变异,在任何基于概率抽样的研究中都不可避免地会产生这种误差,在具体分析时应当避免仅凭单一调查结果得出结论

15. 统计学的主要任务是进行统计推断,包括参数估计和假设检验。

表示某随机事件发生的可能性程度的量化指标。衡量随机事件发生可能性程度的数量在其定义域内取值。将发生可能性程度低于显著性水平(通常设为5%)的一类随机现象称为小概率事件。

17. 频数表和频数分布图的应用包括:
(1) 展示数据分布的主要形态。
(2) 分析数据集中的集中程度以及分散程度。
(3) 识别可能存在的极端值。
(4) 作为呈现数据特征的一种有效工具。
当样本数量较大时,则可以用频率来近似概率。
(5) 有助于开展深入的数据分析工作

18. 均数应用于计量资料的正态分布或近似正态分布资料。

19. 当资料呈正态分布时,均数位于分布的中心。

每个观测数据都加上同一个固定数值a,则这些数据的新平均值等于原始平均值再加上这个固定数值a;如果将每个观测数据乘以同一个非零固定数值b,则新计算出的平均值等于原始平均值乘以这个固定数值b

21. 几何平均值常用于处理对数值呈正态或近似正态分布的数据集,并且在处理等比级联的数据时同样适用。\例如,在医学领域中常用于分析免疫反应指标如抗体(体)浓度数据

22. 计算几何均数的资料一般不能有观察值为0,也不能同时包含正负观察值。

23. 除了作为描述任意分布类型计量资料集中趋势的一种指标外,在实际应用中对于服从正态分布或接近正态分布的数据资料而言中位数由于其本身的局限性并不适合于进行进一步的统计分析因此在这种情况下我们应当优先选择算术均数来描述这些数据的集中趋势

中位数常用于描述不同类型的统计数据集的集中趋势,在包括呈偏态分布的数据、单侧或双侧数据不明确的情况以及分布不清的数据时尤为适用。

极差和四分位间距常用于衡量计量数据的分散程度,但相对较为粗略,相比之下,在度量数据分布的集中趋势方面更为精准

26. 较极差稳定,他们用于描述偏态分布资料。

中位数M是一种独特的百分位数值,并确切对应于第50百分位P50这一特定情况。在统计学中,百分位数被视为一种位置参数,在一组数据中按照从小到大的顺序排列之后,在其第X百分位置上的数值被定义为该组数据的第X百分位数值Px(其中x代表某个具体的概率值)。具体而言即为Px=(i-1)/n×100%,其中i是排序后处于该百分位置的数据点的位置编号(i=1,2,…,n)。

28. 方差和标准差用于描述正态分布计量资料的离散程度。

综合运用均数与标准差指标可全面阐述正态分布计量数据的集中位置及其变异特征

变异系数表征为相对离散程度的一种指标,并具有无量纲的特点。它主要应用于比较不同单位测量数据或虽然采用相同单位但均数存在较大差异的数据间的变异程度。

正态分布可被视为横轴上方以均值为中心的单峰对称形态。
其概率密度函数通常表示为N(\mu, \sigma^2),其中涉及两个关键参数:
- 总体均值\mu决定了分布的位置(位置参数);
- 总体标准差\sigma则衡量数据的离散程度(变异度参数)。

32. 正态分布曲线下的面积是1,其分布有一定的规律,

±1.64s内的面积为90%,

±1.96s内的面积为95%,

±2.58s内的面积为99%。

33. 常用相对数有:率、构成比、相对比。

34. 指标表征某现象发生的发生频率和强度。某一分率的变动不影响其他分率的变化。

35. 构成比衡量某事物内部各组成部分所占比重或分布情况。某一组成部分的构成比变动会引起其余部分相应变动。

第36条 比较指标是指用来衡量并比较两个相关的事物指标的数值关系,在统计学中常用于表示一个指标相对于另一个指标的具体比例值(如倍数或分数形式)。比较的两个事物指标既可以来自绝对数值比较(absolute comparison),也可以基于相对数值计算(relative numerical calculation)或者基于平均值分析(average numerical analysis)得出结论

应用相对数注意事项:(1)分母的数量应当足够多(即样本数量不宜过少)。(2)将n个相对指标直接相加后除以n的做法是错误的;正确的做法是先将对应的绝对指标相加后再计算新的合计指标。(3)在分析问题时必须准确区分合计指标与构成指标的概念;切勿混淆两者的使用。(4)在比较两个指标之间的差异时需特别注意两者的可比性问题;如果存在其他影响结果的因素,则应在统计设计阶段加以控制。(5)当对样本水平的数据进行比较时需通过统计检验来判断差异是否具有显著性意义。

常见的标准化方法包括直接标准化技术、间接标准化方法以及反向标准化程序等,并简称为直接法则、间 methodology 和逆向标准程序。

一般情况下,在确定"标准"时有两种主要方式:第一种是采用具有代表性、稳定且规模较大的人群作为参考群体;第二种是通过比较不同资料中的任意一组数据来确定"标准"。

标准化比较比率(SMR)代表了标准化比较组中实际发生事件数量与预期数量之间的对比关系。在计算过程中,当得出的SMR值大于1时,则表明该标准化比较组的事件发生率高于参照标准;反之,则表明其事件发生率低于参照标准。

计算标准化率的具体步骤包括:首先基于资料的条件采用直接法或间接法进行方法选择;其次确定标准体系;最后应用相应的公式进行标准化率计算。

需要注意的是,在应用标准分法时:(1)仅当内部结构的变化对总体指标产生影响时适用;(2)根据所选标准的不同,计算出的结果会有所差异,但得出的结论是一致的;(3)经过标准分处理后的分数,已经无法反映当时当地的实际情况,它仅表示相互比较数据间的相对水平;(4)样本的标准分值同样存在抽样误差,并需通过统计检验加以验证。

43. 发病率是指在特定时间段内某一人群内部新发生病例的数量指标,而患病率则是指在特定调查时间点上被调查人群内部已存在的患病人数数量指标.

在一段时间内某人可能发生多次疾病而导致多例病例;因此可知,在该时间段内该病的发病率可能高于100%;而患病率则不会超过这一数值

45. 发生频率较高的疾病被称为多发病;易患性疾病则被称为常见病;同时具备较高易患性和较高发生频率的疾病则被称为常见多发病。

46. 统计表主要包含标题\、标目\、线条\、数字以及备注等内容。统计表的编制要求如下:
(1) 强调核心内容, 信息呈现要简明扼�;
(2) 主体与谓语分明, 层次结构清晰;
(3) 格构式布局完整, 具备明确性。

47. 常见的统计图形包括条形图、饼 chart 以及圆形统计图形等。这些图表类型分别适用于不同的数据展示需求:条形图标明各分类之间的对比关系;饼 chart 则用于表现各部分占整体的比例;百分比条形 chart 可直观展示不同类别间的百分比差异;histogram 适合显示连续型数据的分布情况;semi-logarithmic line chart 则适用于呈现指数增长或衰减趋势的数据变化;scatter plot 可用来观察两个变量之间的相关关系;box plot 能够清晰地展示数据分布的中位数及四分位距范围;最后还有 statistical map 这种地理空间分布类型的图表来辅助空间数据分析和可视化表示。

单一构成比的描述可以选择圆形图或百分条图;多个构成比的分析比较推荐使用百分条图。

第49句

箱式图主要包含五个描述统计量来进行绘制:最小值、下四分位数值(Q1或P25)、中位数值(M)、上四分位数值(Q3或P75)以及最大值;它不仅能够展示一个连续型数值变量的分布特征,还可以用来对比不同类别间同一连续型变量分布特征之间的差异

51. 均值抽样误差源于抽样的原因,主要是由个体间的差异而导致的不同样本均值之间的差别以及与总体均值之间的差距。

The standard error represents the standard deviation of sample means and serves as an indicator to measure the magnitude of sampling error. By increasing the sample size, one can effectively decrease the standard error of the mean, thereby reducing sampling error.

53. 参数估测主要通过样本数量代表来推算总体数值特征。其中采用点估与间估两种方法进行估算:点估可直接得出特定数值;而间估则基于预先设定的概率水平1-α,在抽样分布基础上计算出包含总参数的置信区间。

54. 置信区间用于估计其总体均值的可能范围。它被用来推断该值的大致位置。当我们在95%置信水平下计算得出某指标的置信区间时,则表明我们有95%的信心认为该指标的真实值位于这一区间内。

±t0.05,νS

±1.96S

范围内的可能性为95%。

在抽样研究中,在比较样本均值之间以及样本均值与总体均值之间的大小时,并不能直接作出推断;而要进行假设检验

56. 假设检验的基本思想包括小概率思想和反证法思想。

57. 基于样本信息推断该检验假设是否成立的一种统计方法这一概念。用于比较不同总体参数之间的差异性分析。

58. 进行假设检验的主要步骤:⑴设定原假设与备择假设,并设定显著性水平;⑵计算相应的检验统计量数值;⑶通过查阅相关分布表或使用统计软件计算得到P值;⑷根据计算得到的P值与设定的显著性水平比较后作出推断结论。

59. 单样本t检验的目标在于判断该样本所代表的总体均数与已知总体均数是否存在显著差异,并要求该样本来自正态分布。

60. 配对设计包括:⑴两个受试对象具有某些相似的特征后被配成一对,在各自接受不同的处理措施;⑵同一受试对象可以在不同时间段接受不同的处理方法或者在同一时间段内进行前后两次对比观察。这种设计能够显著减少抽样误差,并提高研究结果的统计效率

61. 用于配对设计下的计量数据间的比较分析,并要求其差值满足正态分布的前提条件。

62. 采用完全随机设计可将一批同质受试对象随机分配至各组,并非必须从多个群体中独立抽取样本;研究者也可通过从若干个不同的受试对象群体中进行抽样来实施这种方法,并对其实验效应进行考察

63. 采用完全随机设计进行两样本均数比较时使用的t检验是一种用于推断计量资料中两个独立总体均数之间是否存在显著差异的方法。其应用基于以下前提条件:首先要求每个样本所对应的总体数据分布符合正态分布;其次需要满足两个总体方差相等(即方差齐性)这一基本假设。

64. 两个样本均取自正态分布的整体作为方差齐性检验的前提条件;在该检验中计算得到的检验统计量F遵循F分布,并包含两个自由度:较大的方差对应分子自由度而较小的方差对应分母自由度。当F值增大时相应的P值也会变小。

65. 两组样本均数间的比较,在分析方差不齐情况时可采取以下措施:(1)采用近似的t检验方法;(2)通过对数据进行适当的转换处理来实现方差的一致性;(3)选用相应的非参数统计方法,如秩和检验等。

66. Z检验适用于大样本资料的假设检验。

统计检验中将原本正确的假设H0予以否决的情况即为Ⅰ型错误(假阳性错误),其出现的概率即为α值。

68. 第二类错误发生在假设H0原本就是不正确的情形中.在进行检验后却意外地被接受了**.这等同于'误接收'**.其发生概率为β.

⑴研究设计需具有严谨性;⑵所选假设检验方法需满足适用条件;⑶统计学意义与实际意义存在差异;⑷结论应持谨慎态度;⑸正确解读P值与统计学显著性之间的关系;⑹权衡I类错误与II类错误的影响

70. 方差分析是考察数据变异性的基础之一,并以F统计量作为判断依据的一种用于计量资料假设检验的方法。它主要应用于比较单因素k水平(k≧3)或多因素不同水平总体均数之间的差异性情况。该方法的基本前提是假定数据服从正态分布,并且各组方差需达到齐性。

71. 随机区组设计研究中所涉及的总变异可划分为三个主要部分:处理间的差异性、各区域间的差异性以及误差项。其中区组间的变异性与误差共同作用的部分等同于单因素方差分析中的随机误差。

第72条. 在处理两两比较的问题时, 常用的方法包括q test和LSD-t test等技术; 对于探索性研究, q test则会系统地对比每一个样本均值; 相比之下, LSD-t test则通常应用于那些事先设定明确假设以验证特定关系的研究

73. 常用的用于数据转换的技术包括对数值转换、平方根转换以及平方根反正弦转换等方法。

74. 卡方检验是基于卡方分布的一种用于计数资料假设检验的方法;该方法以卡方值作为统计量来进行分析。

75. X2值反映实际频数(A)和理论频数(T)的符合程度。

76. X2检验的主要用途:
⑴ 比较两个及以上总体率(或构成比)之间的差异是否存在显著性;
⑵ 分析两个变量之间的关联性是否存在;
⑶ 评估观察频数与理论频数之间的一致性程度。

77. **四格表X²检验的注意事项:(1)当样本量n达到或超过40,并且理论频数T不低于5时,应使用四格表x²检验的基本公式或专用公式来计算x²值;(2)当样本量n达到或超过40,而理论频数T处于1至5之间(不包括5)时,则需要采用校正公式来计算x²值;(3)当样本量n小于40或者理论频数T小于1时,则不宜直接计算x²值,转而采用四格表确切概率法进行概率计算。

行×列表资料χ²检验的注意事项如下:(1) 行×列表χ²检验允许约五分之一的基本单元格其理论频数值介于大于1及小于5之间,但不能有任何单元格出现理论频数值低于零。(2)若超过五分之一的所有单元格其理论频数值介于大于1及小于5之间,或者存在任何单元格其理论频数值低于零,则可采取以下三种方法中的一种:第一种方法:增加样本量以提升各单元格的实际观察次数和相应期望值;第二种方法:将那些具有极低期望值且性质相近的相邻行或列合并到一起;第三种方法:删除那些导致出现负值的实际观察数据所在的整个行或列

逐步增减该四格表中的某一个单元格的数据,在维持边缘总计保持恒定的前提下,则可生成从最小边缘总计值到下一个可能值的所有配置的数量为1个四格表。
通常选择行和列总计均为最小的那个单元格来进行这种增减操作,
这样一来就可以系统地列举出所有满足条件的不同配置情况。

非参数检验是一类不受总体分布影响的检验方法,即在实践中无需考虑被研究对象的分布类型以及是否已知这些信息,在假设检验过程中也没有涉及或包含总体参数的一类统计方法。

81. 秩和检验的适用范围:⑴未经精确测定的数据(包括等级数据);⑵呈偏态分布且无法转换为正态分布的数据;⑶数据分布不明的情况。

82. 配对样本的秩和检验常用于配对设计下计量资料差值的比较以及单一样本与总体中位数间的比较。

83. 线性相关系数用于考察服从正态分布的两个随机变量x和y之间是否存在显著的线性关联其本质是一种统计分析方法

84. **相关系数是一种衡量两个变量间线性关系强度与方向的统计指标。它通过符号来表征两变量间的线性关联方向。其主要特点包括:(¹)无量纲属性;(²)数值范围限定于区间[-1, 1]内;(³)正值代表正向关联且数值达到1时表明完全正向关联;负值则代表负向关联且数值达到-¹时即为完全负向关联;(⁴)绝对值越大表明变量间的关系越密切,在达到¹或-¹时达到最大强度;反之则反之亦然

85. 相关分析的必要条件是:两个随机变数;散点图呈现明显的线性关联特征;满足双变量正态分布假设。

86. 在存在相关关系的情况下,通过r值来评估两个变量之间的关联程度:当|r|达到或超过0.7时,则表明两者具有高度的关联性;若|r|介于0.7与0.4之间,则称两者具有中等的关联性;当|r|小于等于0.4时,则视为两者之间的关联较为微弱。

87. 直线回归分析的前提条件:⑴两个变量之间呈线性关系;⑵任何两个观察值都是相互独立的;⑶应变量y服从正态分布;⑷给定x值时, 应变量y的方差相同。

88. 适用场景:⑴不满足双变量正态性或非对称性条件;⑵总体的分布形态不确定;⑶原始数据属于有序分类变量。

89. 对同一资料,相关系数t检验与回归系数t 检验效果相同。

90. 决定系数r²决定回归效果的好坏,r²越接近1,回归的效果越好。

91. 直线回归方程:y=a+bx其中a代表回归直线在纵轴上的截距位置:
⑴当a值为正时,则回归直线会在纵轴正方向与Y轴相交;
⑵当a值为负时,则该交点位于纵轴负方向;
⑶若a等于零,则表明回归直线通过坐标原点;
而b即为回归系数,在统计学上讲,
每当x增加或减少一个单位时,
y的变化量平均约为b个单位。
此外,
⑴若b值大于零,
则表示变量间呈正相关关系,
即随着x的增大,
y也会相应地呈现增长趋势;
⑵当b值小于零时,
则表明变量间存在负相关关系,
此时y随x增大而减小;
⑶如果计算得到的b值等于零,
则说明两个变量之间不存在显著的线性关系。

92. **实验设计的特点:⑴研究者能够主动设定处理变量;⑵受试个体所接受的处理水平及具体程度是通过随机化的方式决定的。

93. 医学实验设计涉及干预措施或研究变量、受试者以及实验结果三个基本要素。

94. 常见的对照形式包括基于空白对照、安慰剂对照、实验性比较、标准性比较等方法;具体而言, 包括以空白对照为标准的实验设计, 以安慰剂作为参照物的设计方案, 以及采用实验性比较方法的研究模式. 此外, 还有基于自身作为对比标准的设计方案, 以及相互之间作为对比标准的设计方案. 需要注意的是, 历史上的案例也可作为参照物使用. 以上是常见的几种形式.

95. 随机化包含两种方法:随机抽选和随机分组;其中 (1) 随机抽选是指确保每个体具有同等概率被抽取为样本;(2) 随机分组则是指确保每个样本均有机会被分配至实验组或对照组。

96. 实验设计的基本原则:对照、随机、重复、均衡。

replication是指为了确保研究结论具有一定的可靠性,在计算最小必要样本量的前提下,研究样本的数量应当达到一定程度。

98. 均衡原则也称为齐同对比法 ,即实验组与对照组或其他实验组在除处理因素外的所有条件下尽量保持一致或相似

99. 完全随机设计又称随机对照试验,属于单因素研究设计。

样本含量计算需要明确四个关键要素:α值(显著性水平)、1-β值(检验效能)、标准差(σ或s)以及最小 detectable difference(δ)。其中α值与所需的样本数量呈反比例关系;标准差σ(或s)以及检验效能1-β均与样本数量呈现正相关关系。

101. 剂量反应是实验物质引起实验动物总体中产生某种反应的剂量。

全部评论 (0)

还没有任何评论哟~