Advertisement

深度学习之特征提取算法

阅读量:

在多模态融合过程中,特征提取是关键步骤之一。本文介绍了多种特征提取方法及其应用场景:LBP(局部二值模式)用于纹理特征描述;HOG(方向梯度直方图)用于形状和边缘检测;SIFT(尺度不变特征变换)用于图像关键点匹配;Haar算法用于人脸和行人检测;TF-IDF算法用于文本信息检索。这些方法各有特点:LBP基于纹理对比度;HOG基于边缘方向分布;SIFT基于关键点描述子;Haar利用矩形模板匹配;TF-IDF通过词频与逆文档频率加权评估重要性。每种方法均适用于特定场景,并通过不同步骤实现目标检测或分类任务。

目录

前言

二、LBP(Local Binary Patterns,局部二值模式)

三、HOG算法(Histogram of Oriented Gradient, 方向梯度直方图)

四、SIFT算子(Scale-invariant feature transform ,尺度不变特征变换)

五、Haar算法

六、TF-IDF算法


前言

在多模态融合机制中进行研究时,主要涉及特征提取与表征学习、特征映射与信息转换、特征融合过程以及多任务学习机制


一、特征提取

在深度领域特征提取主要有LBP,HOG,SIFT,Haar,TF-IDF(文本)

二、LBP(Local Binary Patterns,局部二值模式)

LBP算子是一种用来描述图像局部纹理特征的算子,具有灰度不变形。

主要思想:围绕目标像素建立一个3×3的区域,在该区域内逐一比较每个相邻像素与目标像素的灰度值大小关系。对于每个满足大于目标像素条件(记为1)的情况,则记录为1;反之则记录为0。将这八个比较结果组合起来形成一个八位二进制数序列(即8-bit binary number),从而计算出该目标像素对应的LBP特征码(Local Binary Patterns)。

步骤:

(1)将目标检测图像划分为16*16的小区域(cell)

在每个cell中的每一个 pixel 处,在其邻域内计算所有 8 个相邻 pixels 的亮度值,并与当前 pixel 的亮度值进行比较。如果周围 pixels 的亮度值大于当前 pixel 的亮度值,则将其标记为 1;否则标记为 0。

(3)首先提取每个cell的统计直方图并融合成一个特征向量, 即构成了整篇幅的LBP纹理特征向量.随后采用SVM或其他机器学习算法对这些特征向量进行分类.

三、HOG算法(Histogram of Oriented Gradient, 方向梯度直方图)

在一幅图像中,在观察者视角下图像的外观及其形态特征可以通过边缘元素或梯度信息的方向性和密度分布得到有效的刻画。该方法(HOG)不仅能在几何变换后保持一致的表现能力,在平移、旋转等仿射变换下同样表现出稳定的特性。

其步骤为:

(1)将图像灰度化(将图像看做一个x,y,z(灰度)的三维图像);

基于Gamma校正技术对输入图像进行归一化处理以完成颜色空间标准化操作。该过程旨在优化图像对比度并减少光照不均匀性带来的负面影响的同时增强图像去噪能力;

(3)计算图像每个像素的梯度(包括大小和方向);

(4)将图像划分成小cell(例如6*6像素)

通过计算每个单元格中的梯度分布情况(具体为不同梯度的数量),能够获得该单元格对应的描述符

将若干个单元格划分为一个个块(每个块由3\times 3个单元格构成)。然后,在每个块内提取出所有单元格对应的特征描述子,并依次连接这些描述子以生成该块对应的HOG特征描述子。

通过将图像image中的每一个区域的所有HOG特征 descriptor连接起来, 就能够形成该图像(目标)对应的HOG特征 descriptor, 这就是最终提取供分类使用的HOG特征向量的重要工具。

四、SIFT算子(Scale-invariant feature transform ,尺度不变特征变换)

SIFT算子用于提取一幅图中的关键点及其尺度和方向信息,并生成基于这些信息的描述符。该方法通过生成基于尺度和方向的信息,并用于寻找关键点之间的匹配。该方法在图像处理中被广泛应用。

其主要步骤如下:

(1) 尺度空间构建。通过应用高斯核进行二维卷积运算于原始图像,在不同分辨率下生成一系列具有逐步增强平滑特性的子带图像,并模拟了原始数据在多个尺度下的特征表现。

(2)检测尺度空间极值点。在寻找尺度空间中的极值点时,每个采样点需要与其所有相邻的区域进行对比分析。具体而言,在二维图像的空间域和尺度域上都要满足极值条件才能被识别为特征区域。具体实施时,在中间区域位置需要与周围8个邻域区域以及上下两个层级对应区域(共26个区域)进行对比分析。只有当该区域在DOG尺度空间及其上下两个层级中达到最大或最小值时才被确定为图像的关键特征区域。

(3)剔除异常的特征点。通过运用三维二次函数模型来准确定位关键点的位置及其尺度参数,并对对比度不足的关键点以及不稳定或边缘模糊的对应端点进行筛选处理。这将有效提升匹配过程的稳定性,并使系统在噪声干扰下的表现更加优异。

(4)对所有关键点设定其对应的方向参数。计算每一个特征点的方向,并基于此进行后续运算。根据各个关键区域像素梯度的方向分布特性设定各自的方向参数,并使所设计的操作器具有旋转不变性。

(5)关键点描述子生成过程如下:在提取窗口时以关键点为中心选取大小为8×8的区域,在该区域内分别在四个2×2的小块内计算八个方向上的梯度幅值直方图,并将各个梯度幅值的方向统计累积至该区域从而确定一个基础 seeds 点位置。在一个关键点周围会形成四个基础 seeds 点,并且这些 seeds 点均携带八个不同朝向的方向信息。通过这种基于领域方向性的综合分析方法不仅有效提升了算法对噪声数据的抗干扰能力而且还能较好地处理含有定位误差特征匹配时可能出现的问题

6)基于SIFT算法实现图像之间的配对关系建立。首先通过SIFT算法分别提取出A图和B图的空间位置特征向量(分别为k1×128维和k2×128维),然后在每个尺度层面上分别提取对应的特征向量,并对这些特征向量进行配对。若在某一个特定尺度下对应的二维空间坐标值差异均小于等于阈值,则认为这两个特征点完成配对。

五、Haar算法

类哈aar特征作为一种在计算机视觉领域广泛应用的核心算法,在理论构建上受到一维haar小波启发的基础上发展而来,并根据其二维特性被命名为Haar-like特征[1]。随后发展出一种三维版本3D Haar-Like特征用于动态视频分析。具体发展历程可参考图1

在当前领域中应用最广泛的Haar-like特徵(H-Like Features)是一种用于表徵图像空间特性的重要工具,在人脸识别、目标行为监测等多个领域发挥着关键作用

通过滑动窗口技术可以在图像的不同位置提取大量候选区域

六、TF-IDF算法

该算法基于(term frequency–inverse document frequency, 词频-逆向文件频率)是一种广泛应用于文档检索与数据挖掘中的重要加权方法

TF-IDF是一种用于计算文本关键词重要性的统计模型,在信息检索和数据挖掘领域具有广泛应用价值。**其核心思想在于衡量一字词在其所属文档中的重要性。*具体而言,在同一份文档中某关键词出现次数越多,则其重要性与其在文档中出现的频度呈正相关;而当其在整个语料库中的总出现频率越高时,则对该关键词的重要性产生负面影响并呈现反比例关系。*

TF-IDF的基本概念在于:一个术语在一个特定段落中的出现频率较高(TF值大),而在其他段落中的出现频率相对较低(IDF值小),则该术语能够有效地作为分类依据。

假设在百度搜索"水果"时

多种多样的水果种类繁多,
列举了包括苹果、桃子等在内的多种常见类型。
各类蔬菜普遍美味,
个人偏爱的选择是茄子。
苹果和梨子都是口感极佳的优质品种,
而西瓜则是夏天的重要时令瓜类。
好吃的水果不仅包括西瓜、苹果等传统名品,
还有菠萝和猕猴桃等特色选择。

最终的排名序列确定为52413。具体原因如下:首先确定的核心词汇是"水果"。其中编号5和编号2都包含"水果"与"苹果"这两个关键词,并且编号5中"水果"出现了两次。相比之下, 编号4在数量上少于编号2的一个"苹果"关键词;而其他如3号项则与核心词汇无直接关联。值得注意的是, 编号1虽然包含一个"水果"词汇但它采用了堆砌手法进行表述.

全部评论 (0)

还没有任何评论哟~