【人工智能】机器学习:流形学习
【人工智能】机器学习:流形学习
文章目录
人工智能
Manifold Learning.
流形学习(Manifold Learning) 是一种非线性降维方法。
本文目录 :
- Background
- Locally Linear Embedding
- Laplacian Eigenmaps
- t-SNE
1. Background
线性降维 是通过确定对应的低维子空间将高维数据进行线性投影的过程
对于高维空间中的manifold(流形),传统的线性距离度量往往无法有效捕捉其内在结构;如上所示,在二维平面中绘制这些点时(如上图),欧氏距离无法充分反映数据间的关联性)。

该技术是一种用于将高维数据映射到低维空间的方法,并通过非线性模型保留数据间的相互联系。
2. Locally Linear Embedding
Locally Linear Embedding (LLE), 一种经典的无监督降维技术, 可以通过保持数据在其局部邻域内的几何结构特征来实现降维, 这一特性使其在处理非线性数据时展现出独特的优势
基于这一假设:采样数据位于一个局部线性的空间中,在这种情况下
在高维空间中取任一数据点x^i时, 通常会选取与其邻近的k个数据点; 常用的方法包括使用\mathcal{K}-近邻或\epsilon-领域.
② 将该点看作这些邻近点的线性组合,最小化误差:
min \sum_{i}^{} {\mid\mid x^i-\sum_{j}^{} {w_{ij}x^j} \mid\mid_2}
通过学习获得权重矩阵w_{ij}后, 保持参数不变; 在低维空间中寻求一组数据点z^i, 以最小化低维重构误差为目标:
min \sum_{i}^{} {\mid\mid z^i-\sum_{j}^{} {w_{ij}z^j} \mid\mid_2}

3. Laplacian Eigenmaps
拉普拉斯特征映射(Laplacian Eigenmaps,LE) 是一种基于图的方法。
通过使用数据点来建立一个带有标记的graph结构;其中各节点之间的关系通过图中路径的距离来衡量;则参数定义如下:
w_{i,j}= \begin{cases} similarity, & \text {if connected} \\ 0, & \text{otherwise} \end{cases}
当两个数据点x¹和x²位于高维空间中非常接近时,则在低维空间中对应的点z¹和z²之间的距离也会非常近。
S = \frac{1}{2}\sum_{i,j}^{} {w_{ij} \mid\mid z^i-z^j \mid\mid_2}
S表示z的平滑程度(smooth)。
为防止上述优化陷入z^i=z^j=0,对z进行一些约束:
如果的维度是M,则要求span{z^1,z^2,...,z^N} = \Bbb{R}^M
即若希望降维到M维,则降维结果的维度不会低于M维。
4. t-SNE
见t-SNE。
