数据挖掘——数据的准备
发布时间
阅读量:
阅读量
1、数据的收集

2、数据抽样 :注意其代表性和随机性
代表性指的是样本与总体的接近程度;随机性反映样本被抽中纯属偶然
例如,在基于总体质量状况尚不明确的情况之下,则最优选择为应用简单随机抽样;若已掌握总体质量的基本情况,则可以通过分层或系统性方法进行相应的抽样操作以提升估计效果;而当实施简单随机抽样的难度较大时,则应考虑使用分段或整群性方法作为替代方案
3、抽样方法
| 单价段抽样方法 | 方法介绍 | 特点 |
|---|---|---|
| 简单随机抽样 | 将调查总体全部编号,再用抽签法或者随机数表法抽取部分观察组成样本 | 优点:操作简单 缺点:总体较大时,无法编号 |
| 系统抽样(机械抽样、等距抽样) | 先将总体的观察按某一顺序号分成n个部分,再从每一个部分个抽取一定数量的观察组成样本 | 优点:易于理解、简单易行 缺点:总体有周期或增减趋势时,易产生偏性 |
| 整群抽样 | 总体分群,在随机抽取几个群组成样本,群内全部抽样 | 优点:便于组织、节省经费 缺点:抽样误差大于单纯随机抽样 |
| 分层抽样 | 按对样本影响较大的某种特征,将总体分成若干个类别,再从每一层内随机抽取一定数量的观察,合起来组成样本 | 优点:样本代表性好、抽样误差小 |
在实际应用场景中, 通常基于具体情况将整个抽样过程划分为多个阶段实施, 这种方法被视为多阶段抽样方法
流程图如下:

全部评论 (0)
还没有任何评论哟~
