SVM 核函数相关知识

阅读量：

前面的文章讲述的都是将SVM用于线性可分或者近似线性可分的情况，对于非线性可分的情况，正是本文要讨论的内容。

核技巧

线性不可分问题是指不能用一个超平面将数据划分成两个部分，如下图所示：
在这里插入图片描述

但是如果我们对原始数据进行非线性变换，则有可能将原始数据映射到能够线性可分的空间中：
在这里插入图片描述

对于上面这样的数据，如何实现这样的变换？

设原始特征空间为： $\mathcal X \subset R^2，x = (x^{(1)}, x^{(2)})^T \in \mathcal X$ ，新的特征空间为： $\mathcal Z \subset R^2，z = (z^{(1)}, z^{(2)})^T \in\mathcal Z$ 。

定义原空间到新空间的映射为：
$z = \phi(x) = ((x^{(1)})^2, (x^{(2)})^2)^T$
则原空间的椭圆：
$w_1(x^{(1)})^2 + w_2(x^{(2)})^2 + b = 0$
变为了新空间的直线：
$w_1 z^{(1)} + w_2 z^{(2)} + b = 0$
于是，只要把所有的样本都映射到新的空间中，就可以用线性可分SVM完成分类了。我们称这样的变换思想为核技巧。

核技巧的基本想法是：通过一个非线性变换将输入空间对应于一个特征空间，使得输入空间 $R^n$ 中的超曲面对应于特征空间 $\mathcal{H}$ 的超平面。这样，分类问题的学习任务通过在特征空间中求解线性SVM就可以完成。

核函数

假设映射 $\phi(x): \mathcal{X} \to \mathcal{H}$ 是一个从低维的输入空间 $\chi$ （欧式空间的子集或者离散集合）到高维的希尔伯特空间的 $\mathcal{H}$ 映射。那么如果存在函数 $K(x,z)$ ，对于任意 $x, z \in \chi$ ，都有：
$K(x, z) = \phi(x) \cdot \phi(z)$
则称 $K(x, z)$ 为核函数。其中 $\phi(x) \cdot \phi(z)$ 表示x与z的内积，结果是一个常数。

为什么要引入核函数呢？

通常映射 $\phi$ 需要将低维的输入空间映射到更高维度的空间才可以线性可分(例如对异或进行分类)，那么分别计算 $\phi(x)，\phi(z)$ 的话，运算量比较大。如果存在K(x, z)可以等效的计算 $\phi(x) \cdot \phi(z)$ ，则可以极大的减少运算量。

举个例子：

假设输入空间是 $\R^2$ ，有 $x = (x^{(1)}, x^{(2)})，z = (z^{(1)}, z^{(2)})，K(x,z)=(x\cdot z)^2$ ，可以取：
$\mathcal{H}=\R^4, \phi(x)=((x^{(1)})^2, x^{(1)}x^{(2)}, x^{(1)}x^{(2)}, (x^{(2)})^2)^T$
可以得到：
$\phi(x) \cdot \phi(z) =K(x, z) = (x\cdot z)^2$
也就是说二者结果相同，但是可以明显发现 $\phi(x) \cdot \phi(z)$ 的计算复杂度要高得多。不过映射函数不唯一，下面的映射也能达到相同的效果：
$\mathcal{H}=\R^3, \phi(x)=((x^{(1)})^2, \sqrt2x^{(1)}x^{(2)}, (x^{(2)})^2)^T$
核函数的价值在于它虽然也是将特征进行从低维到高维的转换，但核函数好在它在低维上进行计算，而将实质上的分类效果表现在了高维上，这样避免了直接在高维空间中的复杂计算。

正定核

已知映射函数 $\phi$ ，可以通过 $\phi(x)$ 和 $\phi(z)$ 的内积求得核函数 $K(x,z)$ 。不构造 $\phi$ 能否直接判断某个函数 $K(x,z)$ 是核函数？

一般核函数指的是正定核函数，充要条件是：假设 $K(x,z)$ 是对称函数，对于任意的 $x_i \in \chi ， i=1,2,3…m$ , $K(x_i,x_j)$ 对应的Gram矩阵 $K = \bigg[ K(x_i, x_j )\bigg]_{m\times m}$ 是半正定矩阵，则 $K(x,z)$ 是正定核函数，此时 $K(x,z)$ 是核函数。也就是说，一个函数要想成为正定核函数，必须满足任何点的集合形成的Gram矩阵是半正定的。

基于上面的充要条件，可以检验是否是核函数，但是实际计算过程并不容易。一般我们都直接用现成的已经证明好的核函数。

常用核函数

1，线性核函数(Linear Kernel)

就是最普通的线性可分SVM，表达式为：
$K(x, z) = x \cdot z$

2，多项式核函数(Polynomial Kernel)

是线性不可分常用的核函数之一，表达式为：
$K(x,z)=(x\cdot z + 1)^p$
对应的支持向量机是一个p次多项式分类器。

3，高斯核函数(Gaussian Kernel)

在SVM中也称为径向基核函数(Radial Basis Function,RBF)，是非线性SVM最主流的核函数，libsvm默认的核函数就是它。表达式为：
$K(x,z) = exp(-\gamma||x-z||^2)$
其中 $\gamma \gt 0$ 是需要指定的超参数。

4，Sigmoid核函数(Sigmoid Kernel)

也是线性不可分SVM常用的核函数之一，表达式为：
$K(x, z) = tanh（\gamma x \bullet z + r)$
其中 $\gamma , r$ 是需要指定的超参数。

这么多核函数，各自都有什么特点，面对实际问题要如何选择，效果如何，这里先挖个坑，等到将sklearn的SVM调参时一起说。

核函数在SVM中的应用

回顾之前文章学习的SVM对偶问题：
$\begin{aligned} \min_\alpha\ &\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^m\alpha_i\\ s.t.\ \ \ &\sum_{i=1}^m\alpha_iy_i=0\\ &0\leqslant \alpha_i \leqslant C,i=1,2,\dots,m \end{aligned}$
将要优化的函数中的内积 $x_i \cdot x_j$ 用核函数 $K(x_i,x_j)=\phi(x_i) \cdot \phi(x_j)$ 来代替。此时对偶问题的目标问题以及分类决策函数变为：
$\min_\alpha \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\alpha_i\\ f(x)=sign\left(\sum_{i=1}^{N_s}\alpha_i^*y_i\phi(x_i)\cdot \phi(x)+b^*\right)=sign\left(\sum_{i=1}^{N_s}\alpha_i^*y_iK(x_i,x)+b^*\right)$
这意味着我们甚至不需要指定映射函数 $\phi$ ，就可以隐式的借助核函数等价的将输入空间映射到高维空间，进而在更高维的空间中找到划分超平面。在实际应用中，需要结合领域知识来选择合适的核函数。

非线性SVM算法流程

输入：训练集 $T={(x_1,y_1), (x_2,y_2), ..., (x_m,y_m)}$ ，其中x为n维特征向量， $y \in \{-1, 1\}$ 。

输出：分离超平面的参数 $w^*, b^*$ 以及分类决策函数。

算法流程：

(1) 选择适当的核函数 $K(x,z)$ 和一个惩罚系数 $C\gt0$ , 构造约束优化问题
$\min\limits_{\alpha} \;\; \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_jK(x_i,x_j) - \sum\limits_{i=1}^{m}\alpha_i$

$s.t. \; \sum\limits_{i=1}^{m}\alpha_iy_i = 0 \\ 0 \leq \alpha_i \leq C$

(2) 利用SMO算法求出最优解 $\alpha^* = (\alpha^*_1, \alpha^*_2, ...,\alpha^*_m)^T$

(3) 找出所有满足 $0 < \alpha_s < C$ 对应的的S个支持向量，对支持向量集合中的每个样本 $(x_s,y_s)$ ，通过：
$y_s(\sum\limits_{i=1}^{m}\alpha_iy_iK(x_i,x_s)+b) = 1$
计算出每个支持向量 $(x_s, y_s)$ 对应的 $b_s^{*}$ ，即：
$b_s^{*} = y_s - \sum\limits_{i=1}^{m}\alpha_iy_iK(x_i,x_s)$
所有的 $b_s^{*}$ 对应的平均值即为最终的 $b^*$ ：
$b^{*} = \frac{1}{S}\sum\limits_{i=1}^{S}b_s^{*}$
(4) 构造决策函数：
$f(x) = sign(\sum\limits_{i=1}^{m}\alpha_i^{*}y_iK(x, x_i)+ b^{*})$

参考链接：

《统计学习方法第二版》

支持向量机原理(三)线性不可分支持向量机与核函数

李航-统计学习方法-笔记-7：支持向量机- PilgrimHui - 博客园

全部评论 (0)

还没有任何评论哟~

SVM 核函数相关知识

前面的文章讲述的都是将SVM用于线性可分或者近似线性可分的情况，对于非线性可分的情况，正是本文要讨论的内容。核技巧线性不可分问题是指不能用一个超平面将数据划分成两个部分，如下图所示：但是如果我们...

GTK相关函数知识

检查宏 gtk编程中有很多宏，一般都是类型检查作用。如GOBJECT,GTKWINDOW,等等。 gtkinit 初始化gtk参数。 gtkinit&argc,&argv; gtkmain gtk的循...

【模式识别】SVM核函数

以下是几种常用的核函数表示：线性核（LinearKernel）多项式核（PolynomialKernel）径向基核函数（RadialBasisFunction）也叫高斯核（GaussianKe...

【Python】Hook函数相关知识点

最近程序调试遇到了hook函数，基础的知识不足以帮我理解hook，就此做个笔记吧！ 1.hook函数概念 hook：钩子，也就常称之为钩子函数/挂钩函数维基百科：hook函数是计算程序设计术语，指通...

Hive函数相关知识简介

Hive函数相关知识简介文章目录 Hive函数相关知识简介 1、系统自带的函数 2、自定义函数 3、自定义UDF函数开发案例 1、系统自带的函数 1）查看系统自带的函数 hiveshowfuncti...

【python核心】包相关知识

文章目录包定义 init.py文件 all 搜索顺序包定义将模块以文件夹的形式进行分组管理。 demo01.py 包 python程序结构文件夹项目根目录包模块类函数语句 f...

SVM-核函数

1.1SVM非线性可分核函数在上一章节中，我们首先假设数据在原始空间上是线性可分的，在这样的前提条件下，我们知道如何求解最大间隔分类器fx=w^Tx+b=\sumi=1^m\alphaiy^i+b。

SVM——核函数

我们知道，SVM相对感知机而言，它可以解决线性不可分的问题，那么它是怎么解决的呢？它的解决思想很简单，就是对原始数据的维度变换，一般是扩维变换，使得原样本空间中的样本点线性不可分，但是在变维之后的空间...

c语言：函数相关知识点

函数的相关知识点 1.c语言中函数的分类： 1.库函数比如： strcpy Charstrcpychardestination,constcharsource; Printf Intprintfco...

内存相关内核知识点

参考：https://www.zhihu.com/column/c1108400140804726784 传统的三级页表从上到下分为PGD，PMD和PTE。后面引入了新的PUD（PageUpperDi...

是否确定退出登录?

SVM 核函数相关知识

核技巧

核函数

正定核

常用核函数

1，线性核函数(Linear Kernel)

2，多项式核函数(Polynomial Kernel)

3，高斯核函数(Gaussian Kernel)

4，Sigmoid核函数(Sigmoid Kernel)

核函数在SVM中的应用

非线性SVM算法流程

全部评论 (0)

相关文章推荐

SVM 核函数相关知识

GTK相关函数知识

【模式识别】SVM核函数

【Python】Hook函数相关知识点

Hive函数相关知识简介

【python核心】包相关知识

SVM-核函数

SVM——核函数

c语言：函数相关知识点

内存相关内核知识点