Advertisement

数据挖掘——数据的准备

阅读量:

1、数据的收集

2、数据抽样 :注意其代表性和随机性

代表性指的是样本与总体的接近程度;随机性反映样本被抽中纯属偶然

例如,在基于总体质量状况尚不明确的情况之下,则最优选择为应用简单随机抽样;若已掌握总体质量的基本情况,则可以通过分层或系统性方法进行相应的抽样操作以提升估计效果;而当实施简单随机抽样的难度较大时,则应考虑使用分段或整群性方法作为替代方案

3、抽样方法

单价段抽样方法 方法介绍 特点
简单随机抽样 将调查总体全部编号,再用抽签法或者随机数表法抽取部分观察组成样本 优点:操作简单 缺点:总体较大时,无法编号
系统抽样(机械抽样、等距抽样) 先将总体的观察按某一顺序号分成n个部分,再从每一个部分个抽取一定数量的观察组成样本 优点:易于理解、简单易行 缺点:总体有周期或增减趋势时,易产生偏性
整群抽样 总体分群,在随机抽取几个群组成样本,群内全部抽样 优点:便于组织、节省经费 缺点:抽样误差大于单纯随机抽样
分层抽样 按对样本影响较大的某种特征,将总体分成若干个类别,再从每一层内随机抽取一定数量的观察,合起来组成样本 优点:样本代表性好、抽样误差小

在实际应用场景中, 通常基于具体情况将整个抽样过程划分为多个阶段实施, 这种方法被视为多阶段抽样方法

流程图如下:

全部评论 (0)

还没有任何评论哟~