数据挖掘的主要技术
- 决策树—分类、预测
请阐述什么是决策树?它作为一种广泛应用于数据分析的技术工具,在模式识别和分类问题中发挥着重要作用。从字面意思来看(从词面意义来说),构建模型的过程与树木生长的过程相仿:从根节点开始逐步扩展至叶子节点(具体来说,则是从单个数据样本开始逐步递增至完整数据集)。将待分析的数据样本首先归为一个根节点(即初始数据集),随后按照预设规则不断分割细化直至生成多个叶子节点(每个叶子节点对应一个分类结果或预测值)。
决策树有哪些优点?
有哪些常用的决策树算法?
常用的决策树算法包括CHAID、CART、ID3、C4.5和C5.0等多种类型。
CHAID方法基于卡方自关联性检验原理。
什么是卡方检验?
其本质是一种假设检验方法。
即通过比较样本中的观察频数与期望频数之间的差异程度来评估数据分布情况。
具体而言,在统计学中使用卡方统计量来量化这种差异程度。
较大的卡方值意味着观察数据与理论预期之间存在显著差异;较小的数值则表明两者较为接近。当计算得到的统计量等于零时,则表示观察数据完美地吻合了理论预期。
CHAID主要基于局部最优原则(节点之间相互独立),并采用卡方检验来选择最具影响力的自变量;同时该方法的一个必要条件是因变量为类别型变量(如根据类别划分的男、女等)
CART:分类与回归树
- CART在分割逻辑上与CHAID一致,在分割过程中采用的是卡方检验的方法来进行变量筛选和划分决策树节点;而CART则使用了基尼指数作为评估分裂效果的标准。
- 最大区别在于,在节点划分时,CART旨在通过逐步扩展树的深度以实现整体优化目标,类似于后退选择法,而CHAID则采取局部最优策略,各节点之间相互独立。
- CART生成的决策树每条分支都仅产生两个子节点,即为二分法生成决策树。
- 在树的成长阶段,同一自变量可能被多次用于不同的分割步骤。
- 对于存在缺失值的情况,CART会寻找替代数据来弥补缺失值,而CHAID则会将缺失数据单独归类为一类进行处理。
ID3:一种递归分割器
其核心优势在于通过信息增益值进行选择,在每一步中都选取具有最大区分能力的标准作为节点划分依据。
C4.5
C4.5的主要特性在于通过评估基于信息增益的比率来选择数据进行分裂/分割。
- 神经网络—分类、预测
为了便于理解这一概念, 我们可以将其定义为模拟人类大脑信息处理机制的技术体系。在人类大脑中, 由数十亿个生物神经元构成, 这些神经元之间通过复杂的方式相互连接, 从而能够执行精确的信息处理任务。同样地, 神经网络架构也是复杂的系统, 由大量人工构造的人工神经单元组成, 它们通过调节彼此之间的连接强度(即连接权重)从经验知识库中提取信息并完成特定的任务。
神经网络:由多种非线性单元构成,并通过加权求和的方式实现信息传递,在中间层(即隐藏层)完成特征的提取与转换过程;这些中间层则负责提取和转换特征以生成最终的输出结果。这些中间层则负责提取和转换特征以生成最终的输出结果。
目前常用的神经网络算法:反馈传播算法主要用于训练这类前馈结构;其基本架构包括输入端、若干个中间处理 layer 以及输出部分。
前向型网络:

反馈型网络:

由于神经网络具备独特的规模并行架构,并且具有信息并行处理的能力。因此,在适应能力(即系统能够根据输入环境进行自我调整)以及自主组织能力方面表现突出;此外,在抗干扰能力强这一方面也表现优异。然而,在知识与成果的可解释性方面存在明显不足(即人们无法深入理解或确定隐藏层中非线性函数如何处理输入变量)。
影响神经网络建模的关键因素主要包括以下几点:
- 网络深度
- 每一层的输入单元数量
- 连接类型
- 关联强度
- 激活函数或压缩函数
- 回归
回归分为线性回归和逻辑斯蒂回归(又包括响应预测、分类划分)
多元线性回归阐述了一个因变量如何随着一批自变量的影响而呈现一定的数值关系。在实际应用中,因变量的变化可划分为系统性变动与随机变动两个方面:其中系统性变动由自变量导致的变动属于可预测的部分;剩余无法用自变量解释的部分则被称作残差项
在估计多元线性回归方程中的自变量系数时,在应用最为广泛的方法中
逻辑回归分析
关联规则旨在识别存在于数据集中的频繁项集及其关联关系。这些频繁项集及其并行关系被称为关联规则。支持度衡量所发现模式的重要程度,并定义为所有包含项集合{X ∪ Y}事务所占的比例。如果支持度较低,则可能代表偶然事件。置信度则衡量所发现模式的可靠性程度,并表示所有包含项集合{X ∪ Y}事务占所有包含项集合{ X }事务的比例。
Apriori算法:
1.提取所有满足支持度阈值的频繁项集;满足支持度阈值的项目集合即为所求的频繁项集
2.基于上述步骤提取出的所有候选关联规则;其中较为显著的是那些置信度超过设定最低标准的相关联则
分类方法 分类方法通常是通过"物以类聚 人以群分"这一原则来进行的 通过划分后 每个类别内部的所有样本之间表现出较高的相似性 而与其他类别中的样本相比表现出较高的差异性
聚类分析手段包括划分子群体策略、分层分类方法、基于密度分布的空间划分方式以及网格化区域模型法等不同类型的聚类方法。其中划分子群体策略主要体现为K-means算法及其变形形式。具体而言,在K-means算法中首先需随机选定K个样本作为初始质心,并将这些质心作为各聚类中心的初始估计值。随后对于剩下的每个样本点都需要计算其与各聚类中心之间距离的远近关系,并将其归并至离其最近的那个聚类中心所在的类别中。这一过程不断迭代直至所有样本点都被成功分类并稳定下来。
分阶段的处理策略:将最接近的数据配对进行结合,并在每一步骤中持续地进行数据配对结合以构建出一个层次化的分类结构
贝叶斯分类方法—分类 在分析各个类别之间的关联性时 贝叶斯分类方法通过构建概率模型来推断数据分布 从而帮助识别数据点所属的类别类别归属
贝叶斯公式:

设A为该属性的度量描述,则P(B|A)即为基于A获得B的概率;其中分母记作P(X)即代表满足条件A的概率;而P(B)则直接代表满足条件B的概率;最后,在条件下应用贝叶斯定理可知,在给定条件下有相应的概率关系成立
支持向量机—SVM分类
基于结构风险最小的原则,在线性情形下,在特征空间中寻找两类样本的最佳分类超平面;在非线性情形下,则通过一种适当的非线性映射将原始训练数据映射至更高维度的空间中,在这一新空间上进行线性最佳分离超平面的搜索;特别地,在选择适当的核函数时,在更高维的空间中能够确保两类数据得以分离。
被定义为距离超平面最近的一类向量。
一组支持向量能够唯一地决定一个超平面。
支持向量机的一个缺点是所需的训练数据量较大。然而,该方法表现出对复杂非线性决策边界的高度适应能力,并且不容易出现过拟合现象。(对结果的模拟太好了,不能反映真实的输入输出函数关系)
主成分分析—主要用于研究数据处理、降维以及变量间相互关系的一种统计技术
从严格意义上讲,主成分分析属于传统统计学方法的重要组成部分
通过线性组合的方式将多个原始变量综合成若干个主成分,在此过程中每个主成分都是原始变量的线性组合体,在这种转变下既可以有效降低原始数据维度,在另一方面也可以揭示原始数据间的内在联系
其具体操作步骤如下:
首先需要对各变量进行标准化处理,在此过程中按照一定的缩放范围对数据进行标准化处理以消除量纲差异的影响
其次根据计算出的协方差阵或相关系数矩阵求解其对应的特征值与特征向量
接着依据计算得到的各主成分所解释的比例阈值确定需要选取的主要因子数量
随后基于因子载荷大小对提取出的主要因子进行合理命名
最后根据因子载荷计算出各个样本在各个主要因子上的得分值
什么叫因子分析?
将主成分进行推广和延伸,就变成了因子分析
主成分分析和因子分析的联系和区别
1.主成分分析会把主成分表示成各个原始变量的线性组合,而因子分析则把原始变量表示成各个因子的线性组合
2.主成分分析的重点在于解释原始变量的总方差,而因子分析的重点在于解释原始变量的协方差
3.在主成分分析中,有几个原始变量就有几个成分,而在因子分析中,因子的个数可以根据业务场景的需要进行人为指定,并且,指定的因子数量不同,分析的结果也有不同的差异
4.在主成分分析中,给定的协方差矩阵或者相关矩阵的特征唯一时,主成分也是唯一的,但是在因子分析中,因子不是唯一的,并且通过旋转可以得到不同的因子
- 假设检验
假设检验是现代统计学的重要基石之一,在实际应用中被广泛研究的内容。它主要关注的是在特定条件下总体是否存在某种特定特征
基于小概率事件理论的基础原则进行阐述:即当我们观察到一个在总体假设成立情况下出现的概率极低(罕见)的事件时,在一次试验中如果出现了如此罕见的事情,则我们就有理由认为,在一定置信水平下这一假设不成立或者站不住脚
该方法的核心逻辑在于:通过设定显著性水平来判断观察到的小概率事件是否具有统计意义
当观测到的小概率事件超过设定显著性水平时,则拒绝原假设
反之则无法拒绝原假设
这种基于概率理论的方法为统计推断提供了科学依据
在假设检验过程中,错误主要可分为两类:一类是在零假设正确却被拒绝所犯的错(即弃真误差),其发生概率等于1减去置信水平;另一类是在零假设不正确却被接纳所犯的错(即纳伪误差)。在其他条件保持不变的情况下,在显著性水平提升导致第一类误差增加的同时也会降低第二类误差。
