Advertisement

医学统计学 第六章(总体均数的估计)

阅读量:

第一节均数的抽样误差与标准误

1、抽样误差

由于受随机抽样的偶然因素影响下(random sampling chance factors),样本各组的组成无法充分反映总体各组的真实特征(true characteristics)),这将导致抽样指标与全局指标之间出现显著差异(significant discrepancies)

2、样本均数的抽样分布特点
  • 各个样本均值未必与总体均值完全一致
    • 各个样本均值之间可能存在差异(这一现象有助于研究抽样误差的表现)
    • 样本数据呈现一定的分布特征,在大多数情况下接近正态分布
    • 各个样本数据之间的离散程度较小
    • 当抽样数量n增大时……其估计值的标准差逐渐减小
3、均数的标准误

样本均数的标准误差被称为均数的标准误(standard deviation of the sampling distribution, SEM)以 σ_x 表示,在统计学中用于度量各子样平均值围绕总体平均值 μ 的分散程度

4、标准差(Standard Deviation), 标准误差(Standard error),变异系数 (Coefficient of Variance )的区别与联系
  • 标准偏差(Standard Deviations) ,中文环境中也被称为均方差,在统计学中它是描述一组数据与其均值之间差异程度的重要指标。标准偏差等于离均差平方值的算术平均数后再开平方运算的结果。
    通常用符号σ来表示这一指标。
    它能够度量数据分布相对于其均值的程度。
    值得注意的是,在具有相同平均值的数据集中,
    它们的标准偏差可能并不相等。

standard error, 也称为root mean squared error或standard error of the mean, 是统计学中衡量估计精度的重要指标. 标准差与标准误尽管计算公式相似, 但它们是两个不同的概念. 在抽样调查(或重复等精度测量)中, 对同一总体进行多次抽样, 每次抽取n个样本. 每个样本都会计算出一个平均值, 这些平均值的标准差即为标准误差.

  • 变异系数(Coefficient of Variance),标准差与平均数的比值称为变异系数,记为C.V。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。 简单来说就是:在表示离散程度上,标准差并不是全能的,当度量单位或平均数不同时,只能用变异系数了,它也是表示离散程度,是标准差和相应平均数的比值。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。

由此可知,在统计学中用来衡量一组特定数据围绕平均值的分散程度的是所谓的标准差;而当我们在从多个样本中进行抽样时评估每次抽样结果的质量或稳定性时,则采用的是被称为"standard error"的概念。实际上"standard error"即相当于计算这些样本的标准差后再求其标准差。


第二节 t 分布( t-distribution )

基于有限样本数据推断呈正态分布但方差未知的总体均值。当总体方差已知(如样本量较大时),应采用正态分布进行总体均值推断。

22411501-7aa73604c3c881e6.png

t 分布

22411501-2392e542230eaa55.png

t 分布

1、t 分布特征

由上图可知,t 分布与其自由度df或v相关。该曲线在t=0处呈中心对称分布;随着自由度增加会逐渐趋近于标准正态分布。


第三节 总体均数的估计

参数估计即基于样本统计量对总体特征值进行推断的过程。其主要分为两种主要类型:一种是点估计,在这种情况下我们不考虑抽样误差的影响,并直接使用样本数据得出结论;另一种是区间估计,在这种情况下我们提供一个包含真实参数可能落在的区间范围。

1、点估计

无法评价可信度,很少使用

2、区间估计

在数轴上设定的一个区间段可用来表示总体参数的所有可能取值范围。这段区间被称为基于置信水平的置信区间的置信区间(CI)

22411501-38de890ab5441e7b.png

置信区间

这个解释非常出色

全部评论 (0)

还没有任何评论哟~