Advertisement

SPSS Modeler数据挖掘学习_部分笔记

阅读量:
复制代码
    数据挖掘是一个过程,是一个以数据为中心的循序渐进的螺旋式数据探索过程。
![上图指出,数据挖掘时一个以数据为核心多个环节紧密相连,循环反复且循序渐进的数据探索过程]()

一、数据挖掘方法论的各环节:
1.业务理解
2.数据理解

一个简单数据理解流

二、数据挖掘的任务与应用

三、数据挖掘得到的只是形式:
1.浓缩数据
2.树形图
3.规则
4.数学模型

四、数据挖掘算法的分类:

  1. 按照分析数据的方法进行分类
  2. 基于所属学科的不同进行分类
  3. 按照生成结果的形式进行分类
  4. 基于学习过程的特点进行分类

首先来了解一下Modeler的数据集成:
一、从数据挖掘角度看变量类型:
连续数值变量:用于表示年龄、家庭人口数量等信息。
二分分类:即分类型的字段:如性别字段。
多分类或名义型:如职业类别和籍贯信息。
定序分类或有序分类:如教育程度和收入水平字段。
无类型字段:包括学号字段和其他长文本或复杂数据字段(这些无类型字段在建模过程中通常被忽略)。无类型字段处于非实例化状态。
离散型:这一特性决定了其处理方式与连续数值不同。
缺省状态(也称为非实例化状态):对于仅指定了变量名而尚未读入实际值的字段而言,默认情况下Modeler将其视为缺省状态(即未初始化的状态)。这种情况下Modeler将这些字段标记为处于非实例化状态

二、从计算机存储角度看变量类型
整数变量:用于存储完整的数值
浮点变量:用于存储具有小数部分的数值
字符变量:用于存储包含字符的文本内容
时间间隔变量:用于存储持续的时间长度
日期变量:用于存储具体的日期信息
时间点变量:用于存储特定的时间刻度

一个简单的聚类算法_两步

第一步:首先从源选项卡中选择读取数据的类型
第二步:利用记录和字段选项对导入的数据实施清洗与变换
第三步:在建模过程中选择所需使用的模型
第四步:利用导出选项卡中的内容展示分析结果

决策树模型与回归模型

SPSS Modeler提供数据集成选项图标如下图所示:

合并为横向合并,追加为纵向合并

生成

生成

复制代码
    2、缺失值的调整:
    	Modeler对缺失值的修正方法具体步骤是:
    		a、选中某个变量行。
    		b、下拉相应行的【缺失插补】框选择调整对象。
    			【缺失插补】重新指定调整对象:
    				空值:表示将对空做调整。
    				无效值:表示将对系统缺失值$null$做调整。
    				空值与无效值:表示将对空和系统缺失值做调整。
    				条件:表示将对满足指定条件的变量值做调整。
    
    在【插补时间】中选择【条件】,并在【条件】框中输入一个CLEM条件表达式,然后在【插补方法】中选择调整方法,包括:
    	*固定:为默认值,表示调整为某个固定值。如果选择固定方法,还应在【固定值插补】框的【已固定为】下拉框中选择固定值,可以是均值、中间值、或一个指定的常数。
    	*随机:表示调整为一个服从正态分布或均匀分布的随机值。Modeler将给出相应变量的正态分布参数和均匀分布参数。
    	*算法:表示调整为模型的预测结果。Modeler只给出了分类回归树模型。
    		
    		c、选中需要调整的变量行,选择窗口菜单【生成】下的【缺失值超节点】项。
    			【缺失值超节点】项表示,Modeler将自动生成一个包含若干个必要节点的超节点,用于根据用户指定的方法进行相应调整。

经常把学习笔记存储在移动硬盘旁边。结果硬盘前一阵坏了,导致一些重要数据丢失,以后会打算以后会慢慢把博客作为主要的数据存储场所,并把这些觉得有用的东西一一放到里面去,如有不足之处恳请您多多指正

全部评论 (0)

还没有任何评论哟~