统计学习方法——感知机（一）

阅读量：

统计学习方法——感知机

感知机
- 感知机模型
- 感知机学习策略
- - - 数据集的线性可分性
- 感知机学习策略
- 感知机学习算法
- - - 参考文献

感知机

感知机是是二分类线性分类模型，输入为实例的特征向量，输出为实例类别（ $-1,+1$ ）。

感知机模型

感知机模型属于判别模型，目标是求出将训练样本进行线性划分的分离超平面。

感知机
假设输入空间（特征空间）为 $\mathcal{X}$ ，输出空间是 $\mathcal{Y}$ ， $x\in \mathcal{X}$ 是每个实例的特征向量，则从输入空间到输出空间的映射为：
$f\left( x \right) = sign\left( {w \cdot x + b} \right)$
也称之为感知机。其中 $w,b$ 为模型参数， $w$ 是特征属性的权值向量， $b$ 为偏置项， $sign$ 函数为
$sign \left( x \right) = \left\{ \begin{array}{l} {+ 1}\quad x \ge 0\\ {- 1}\quad x < 0 \end{array} \right.$
感知机的几何解释
线性方程 $w\cdot x+b=0$ 对应特征空间中的一个超平面 $S$ ，其中 $w$ 是超平面的法向量， $b$ 是超平面的截距，如下图所示：

感知机学习策略

数据集的线性可分性

前面我们已经说过了，感知机处理数据的两个特性：二分类、线性。所以我们先来看一下数据的线性可分性。

数据的线性可分性
对于一个数据集 $T = \left\{ {\left( {{x_1},{y_1}} \right),\left( {{x_2},{y_2}} \right), \cdots ,\left( {{x_N},{y_N}} \right)} \right\}$ ，其中 $x_i\in\mathcal{X}$ ， $y_i\in\mathcal{Y}=\left\{-1,+1\right\}$ 【体现了二分类】, $i=1,2,\cdots,N$ ，如果存在一个超平面 $S$
$w\cdot x+b=0$
能够将聚集的正实例和负实例完全正确地划分，则称数据集为线性可分的，否则则是不可分的。

感知机学习策略

为了找到超平面，需要确定感知机模型参数 $w,b$ ，需要一个学习策略，也就是所谓的定义并最小化（经验）损失函数。

损失函数的选择有两种：
1. ~~误分类点的总数~~ (此损失函数关于 $w,b$ 参数不是连续可导的)
2. 误分类点到超平面 $S$ 的总距离
损失函数的定义
- $L_2$ 范数：向量各元素的平方和然后求平方根，用 $\left\| {} \right\|$ 表示。
- 推导过程
  - 空间中任意点 $x_0$ 到平面 $S$ 的距离： $\frac{1}{{\left\| w \right\|}}\left| {w \cdot {x_0} + b} \right|$
  - 对误分类的点 $\left( {{x_i},{y_i}} \right)$ 则有： $- {y_i}\left( {w \cdot {x_i} + b} \right) > 0$
    【因为被误分类，所以 $y_i$ 与 $\left( {w \cdot {x_i} + b} \right)$ 必然异号，所以 ${y_i}\left( {w \cdot {x_i} + b} \right) < 0$ ， $- {y_i}\left( {w \cdot {x_i} + b} \right) > 0$ 】
  - 误分类点 $x_i$ 带 $S$ 的距离为： $- \frac{1}{{\left\| w \right\|}}{y_i}\left( {w \cdot {x_i} + b} \right)$
  - 所有误分类点到超平面 $S$ 的总距离为
    $- \frac{1}{{\left\| w \right\|}}\sum\limits_{{x_i} \in M} {{y_i}\left( {w \cdot {x_i} + b} \right)}$
- 感知机学习的损失函数
  不考虑 $\frac{1}{{\left\| w \right\|}}$ ，就得到感知机学习的损失函数：
  $L\left(w,b\right)=-\sum\limits_{{x_i} \in M} {{y_i}\left( {w \cdot {x_i} + b} \right)}$
  其中 $M$ 为误分类点的集合。

感知机学习算法

感知机学习算法
- 感知机学习算法的目标是（误分类驱动）：
  $\mathop {\min }\limits_{w,b} L\left( {w,b} \right) = - \sum\limits_{{x_i} \in M} {{y_i}\left( {w \cdot {x_i} + b} \right)}$
- 具体算法
  - 随机梯度下降法：任取超平面 $w_0,b_0$ ，然后每次从 $M$ 中每次随机选择一个点进行梯度下降。
1. 假定误分类点集合 $M$ 固定，则 $L\left( {w,b} \right)$ 的梯度为
  ${\nabla _w}L\left( {w,b} \right) = - \sum\limits_{{x_i} \in M} {{y_i}{x_i}}$
  ${\nabla _b}L\left( {w,b} \right) = - \sum\limits_{{x_i} \in M} {{y_i}}$
2. 随机选取一个误分类点 $\left( {{x_i},{y_i}} \right)$ ，对 $w,b$ 进行更新
  $w \leftarrow w + \eta {y_i}{x_i}$
  $b \leftarrow b+\eta {y_i}$
  其中 $\eta \left( {0 < \eta \le 1} \right)$ 是步长，在统计学习中又称为学习率。
3. 通过迭代可以期待损失函数 $L\left( {w,b} \right)$ 不断减小,直到为0。

【直观上说：当一个实例点被误分类则调整平面以减少该点到平面的距离，知直到全部分类正确】
不同的初值或选取不同的误分类点，解可以不同。
学习算法

算法的收敛性
算法应该是收敛的，因为只有收敛才能经过有限次的迭代得到感知机模型。

复制代码

* Novikoff

设训练数据集 $T=\left\{ {\left( {{x_1},{y_1}} \right),\left( {{x_2},{y_2}} \right), \cdots ,\left( {{x_N},{y_N}} \right)} \right\}$ 是线性可分的，则

复制代码

1. 存在满足条件$\left\| {{{\hat w}_{opt}}} \right\| = 1$的超平面${{\hat w}_{opt}} \cdot \hat x = {w_{opt}} \cdot x + {b_{opt}} = 0$将训练数据集完全正确分开；且存在$\gamma = 0$，对所有的样本有：

${y_i}\left( {{{\hat w}_{opt}} \cdot {{\hat x}_i}} \right) = {y_i}\left( {{w_{opt}} \cdot {x_i} + {b_{opt}}} \right) \ge \gamma$

复制代码

2. 令$R = \mathop {\max }\limits_{1 \le i \le N} \left\| {{{\hat x}_i}} \right\|$，则感知机算法在训练数据集上的误分类次数$k$满足：

$k \le {\left( {\frac{R}{\gamma }} \right)^2}$

感知机学习算法的对偶形式

复制代码

* 对偶形式的基本想法

将 $w$ 和 $b$ 表示为实例 $x_i$ 和 $y_i$ 的线性组合的形式，进一步求解 $w$ 和 $b$ 。

复制代码

* 详细过程 
  * 假设初始$w_0=b_0=0$，对误分类点$\left( {{x_i},{y_i}} \right)$通过

$w \leftarrow w + \eta {y_i}{x_i}$
$b \leftarrow b + \eta {y_i}$
逐步修改 $w,b$ 。

复制代码

  * 学到最后$w,b$表示为

$w = \sum\limits_{i = 1}^N {{\alpha _i}{y_i}{x_i}}$
$b = \sum\limits_{i = 1}^N {{\alpha _i}{y_i}}$
其中 $\alpha_i \ge 0, i=1,2,...,N$ ，当 $\alpha=1$ 时表示第 $i$ 个实例点由于误分而进行更新的次数。

复制代码

* 规范表述

输入：线性可分数据集 $T$ ，学习率 $\eta$
输出： $\alpha,b$ ；感知机模型 $f\left( x \right) = sign\left( {\sum\limits_{j = 1}^N {{\alpha _j}{y_j}{x_j} \cdot x + b} } \right)$ ，其中 $\alpha = {\left( {{\alpha _1},{\alpha _2}, \cdots ,{\alpha _N}} \right)^T}$
（1） $\alpha \leftarrow 0,b \leftarrow 0$
（2）在训练集中选取数据 $\left( {{x_i},{y_i}} \right)$
（3）如果 ${y_i}\left( {\sum\limits_{j = 1}^N {{\alpha _j}{y_j}{x_j} \cdot {x_i} + b} } \right) \le 0$
${\alpha _i} \leftarrow {\alpha _i} + \eta$
$b \leftarrow b + \eta {y_i}$
（4）直到无误分类数据。

参考文献

《机器学习》
《统计学习方法》

全部评论 (0)

还没有任何评论哟~

统计学习方法——感知机（一）

统计学习方法——感知机感知机感知机模型感知机学习策略数据集的线性可分性感知机学习策略感知机学习算法参考文献感知机感知机是是二分类线性分类模型，输入为实例的特征向量，输出为实例类别（1...

统计学习方法——感知机

目录统计学习方法——感知机 2.1感知机模型 2.2.1数据集的线性可分性 2.2.2感知机学习策略 2.3感知机学习算法 2.4python实现运行结果 reference 统计学习方法——感知...

[统计学习方法]感知机

1.感知机模型其中w和b为感知机模型的参数，w为权值向量，b为偏置，sign为符号函数，当x大于等于0时，signx=+1，否则signx=1。感知器模型是用来解决二元分类的模型，即输入是特征向量...

《统计学习方法》——感知机

感知机模型定义2.1（感知机）：假设输入空间是，输出空间是。输入表示实例的特征向量，对应于输入空间的点；输出表示实例的类别。由输入空间到输出空间的如下函数，称为感知机。其中，w和b为感知机模型参数，...

统计学习方法——感知机

基本模型感知机1957年由Rosenblatt提出，是神经网络与SVM的基础。它是一个二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和1二值。线性方程w⋅x+b=0对应于特...

统计学习方法学习总结（一）：感知机

概念：感知机perceptron是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和1二值。感知机对应于输入空间特征空间中将实例划分为正负两类的分离超平面，属于判别模型。

统计学习方法学习--感知机

感知机是一个二类分类的线性分类模型，属于判别模型。输入为实例的特征向量，输出为实例的类别，取+1和1值。感知机是神经网络和支持向量机的基础。由输入空间到输出空间的函数是：fx=signwx+b;其中...

《统计学习方法》（1）——感知机

《统计学习方法》（1）——感知机 1958年，Rosenblatt等人成功研制了代号为MarkI的感知机perceptron，这是历史上首个神经网络的学习功能用于模式识别的装置，标志着神经网络进入了新...

统计学习方法——感知机（二）

统计学习方法——感知机感知机数据来源数据示例实现感知机模型完整代码参考文献感知机在前面介绍了感知机的相关感念以及理论依据，在这里我们以一个实例来看一下感知机的实现过程（python3）...

《统计学习方法》学习之感知机

@TOC九月份开始学习机器学习，目前在看《统计学习方法》，学得很慢，有种自己不晓得怎么学习的感觉，因此尝试写博客，看看能否改善这种状态。感知机感知机（perception）是二类分类的线性分类模型...

是否确定退出登录?

统计学习方法——感知机（一）

统计学习方法——感知机

感知机

感知机模型

感知机学习策略

数据集的线性可分性

感知机学习策略

感知机学习算法

参考文献

全部评论 (0)

相关文章推荐

统计学习方法——感知机（一）

统计学习方法——感知机

[统计学习方法]感知机

《统计学习方法》——感知机

统计学习方法——感知机

统计学习方法学习总结（一）：感知机

统计学习方法学习--感知机

《统计学习方法》（1）——感知机

统计学习方法——感知机（二）

《统计学习方法》 学习 之感知机

《统计学习方法》学习之感知机