Advertisement

机器学习-特征选择

阅读量:

在此前已经应用过文本分类算法,在这一算法中涉及到了大约一万七千个特征,并且样本量共计一千个。然而对于那些进行过文本分类处理的专业人员而言,并非如此长的特征就会导致问题出现。实际上这样的大量特征往往会导致分类速度变慢,并且通常的做法是进行相应优化处理。然而我由于当时缺乏相关知识储备,并未采取任何措施进行改进

现在深入分析降维技术 探讨该算法采用的是基于包裹器模型的特征选择技术

这里写图片描述

假设我们面对n个特征,在进行降维分析时将面临2^n种可能的选择方案。当n值变得非常大时,在这种情况下要找到最优解将会变得异常复杂;为此我们需要一种有效的降维算法称为前向搜索法(Forward Search)。该方法的基本思想是按照某种规则逐步探索可能的解决方案

这里写图片描述

该算法的核心思想在于逐步构建模型以实现最优变量选择。首先初始化为空集合,在每一步迭代过程中会依次遍历每一个特征,并通过评估发现哪一个新引入的变量能够最小化预测误差。这一过程将反复执行直至完成所有候选变量的选择。同样地,在完成所有候选变量的选择后如何确定何时停止?通常由我们自行设定最大允许的变量数目。同样地,在完成所有候选变量的选择后如何确定何时停止?通常由我们自行设定最大允许的变量数目。
同样地,在完成所有候选变量的选择后如何确定何时停止?通常由我们自行设定最大允许的变量数目。
这种算法本身的复杂度较高,并非因为每次选择一个变量都需要进行交叉验证评估其带来的误差影响。
同样地,在完成所有候选变量的选择后如何确定何时停止?通常由我们自行设定最大允许的变量数目。
对应于前向算法而言,在此过程中我们将采用一种不同的方法来进行模型构建和优化过程。

让我们介绍一下这种另类特征选择方法。它的计算复杂度相较于前一种方法有明显下降;然而其准确率却不如先前显著。这个算法的名字叫做:Filter feature selection

这里写图片描述

该算法的核心思想在于我们利用相对熵来衡量x与y之间的关联程度。当这种关联程度较大时,则可视为更为理想的特征参数。
为了更好地理解相对熵的概念及其应用,请稍后继续阅读。

这里写图片描述

具体来说,相对熵是用来衡量两个概率分布之间差距的一个指标或数值。其应用即为比较P(X,Y)与P(X)P(Y)之间的相对熵值有多大。

在上述定义中可以看出变量x和y均为二元变量。对于更普遍的情形而言,则只需将我们的研究范围进行相应调整即可。我们的目标即在于选取一个特征值,并对其实现相应的遍历操作。具体而言,则是需要依次遍历其自身的定义域以及y的定义域,在此过程中计算相对熵,并最终选择具有最大相对熵对应的特征作为最佳候选者。

这里写图片描述

这一关键点值得特别关注 ,在利用相对熵方法获得了特征的重要性排序后 ,那么是否只需按照重要性从高到低选择就完成了任务呢? 实际上并非如此 。之前已经提到过 ,虽然相对熵能够提供一些初步的信息 ,但为了更加准确地确定最佳特征组合 ,我们需要借助交叉验证来选择合适的特征值 。具体来说我们可以自行设定一个足够小的学习率阈值作为筛选依据 !

全部评论 (0)

还没有任何评论哟~