Advertisement

目标检测算法综述

阅读量:

1 目标检测问题的定义

2 目标检测问题方法

首先需要将输入图像提供给系统进行处理。
随后通过候选框提取的方法对候选区域进行特征识别。
并利用分类器判断该区域是否为目标或背景类别。
判断结果后即可完成初步筛选。
最后应用非最大值抑制(NMS)算法来合并不重叠的候选框。
另一种方法则通过结合特征提取与目标边界回归技术来定位目标区域。
同样应用非最大值抑制(NMS)策略来消除重叠检测结果。
直接回归的方法主要依赖于深度学习模型。
目前这种方法虽然仍以深度学习为基础但其在边界预测方面采用了更为复杂的策略以提高准确性。

3 传统目标检测算法综述

4 传统的目标检测算法

V–J算法是一种广泛应用于人脸识别领域的关键性技术,在其核心模块中基于Haar特征设计出一种用于描述人面特性的算子。值得注意的是其本质上属于纹理分析的一种方法,在实际应用中通常会结合Adaboost等机器学习算法构建分类模型。通过滑动窗口技术动态调整候选区域位置以实现目标定位。当滑动窗口尺寸与步进间隔发生变动时会产生大量冗余候选框这不仅降低了检测速度还可能导致系统整体性能下降

5 HOG+SVM 算法

HOG+SVM算法主要应用于行人检测任务。其基础原理与传统检测算法相似,并在此基础上进行了优化改进。具体而言,在这里我们采用了基于HOG特征提取与SVM分类器训练的策略取代传统的基于积分子特征(Viola-Jones)和Adaboost分类器(AB)的传统方案。在候选框的提取过程中,则采用了滑动窗口法,在候选框筛选阶段,则采用了非极大值抑制(NMS)技术以进一步提高检测精度。最后,在完成上述步骤后,则实现了目标物体的精确检测。

了解HOG特征的基本概念后会发现它属于纹理分析中的一种技术核心流程主要分为以下几个步骤第一步是针对灰度图像进行处理因为在应用HOG特征时需先将原始彩色图像转换为灰度图像进行处理这样做主要是为了简化后续的计算过程接着对图像进行Gamma变换这一过程实际上是对方差值进行平方根处理从而达到平滑数据的效果随后需要计算梯度分布情况具体来说就是通过这两个方向的导数来确定边缘方向信息进而推断出当前像素点的方向角这一系列操作完成后系统会根据这些参数设置生成对应的特征向量其数量会受到量化角度的数量量化单元格大小以及细胞密度等因素的影响

完成hog特征提取后, 我们将使用支持向量机(svm)来进行人像与背景这样的二分类任务, 构建行人检测模型

6 常见的目标检测算法-DPM(物体检测)

7 常见传统目标检测算法-Sofe-NMS算法

8 基于Two-stage的目标检测算法综述

Two-stage是一种基于深度学习的目标检测方法,在深度学习驱动的目标检测领域中主要包括两种主要类型:Two-stage目标检测方法与One-stage目标检测方法。在Two-stage目标检测过程中,系统会利用卷积神经网络(CNN)来完成整个目标检测流程。其中的关键特征提取部分通常采用CNN模型来识别候选区域的特征描述符。具有代表性的相关工作包括2014年提出的R-CNN及其后续改进版本如faster-RCNN等系列算法。若不考虑Two-stage方法中单独训练Region Proposal Network(RPN)的过程,则可将其视为一种端到端的目标检测框架。然而实际上该方法并非完全端到端,在其运行过程中主要经历了两个关键步骤:首先训练RPN网络以生成候选区域边界框;其次基于这些边界框进行目标区域的具体识别与定位。相较于传统基于CNN的目标检测方法,在此方案中无需额外进行分类器训练以实现特征表示过程;而是通过一个完整的卷积神经网络模型一次性完成从输入图像到最终输出结果的全部操作流程。这种方法显著提升了检测精度但可能会降低运行速度;而One-stage方法则采用直接回归技术定位目标区域的位置

随后将输入一张图片,并对其进行深度特征提取后会进入主干网络(即卷积神经网络)进行处理。接着rpn网络负责执行传统的目标检测流程:生成候选区域并对其进行分类判断属于背景还是目标类别的物体。此外在rpn阶段还会对目标的位置做出初步预测以指导后续操作。为了进一步优化定位精度系统会采用roi_pooling层结合全连接层(fc)的方式分别实现对候选目标位置的精确判定以及坐标校准最终输出物体真实类别并给出具体的目标定位坐标表示

9 two-stage目标检测算法核心组件

卷积神经网络作为主干网络

除了主干层的CNN模型之外,我们还需要引入一个RPN网络。从上图所示的结果来看,在经过主干层(卷积层)处理后的输入图像会产生特征图(feature maps)。这些特征图通常表现为一个四维张量ncwh(其中n代表当前处理样本的数量;c代表特征图中的通道数量;w和h分别代表宽度和高度),这些维度值可能会与原始输入图像存在一定的比例关系。这种比例关系的变化原因包括以下几个方面:首先,在执行卷积操作时可能会引入宽度和高度方面的信息损失;其次,在后续处理过程中可能会对特征图进行缩放等操作以适应不同尺度的目标检测需求。对于经过卷积运算后生成的具体特征图数据集而言,在完成基本特征提取后我们需要利用RPN网络来进行候选区域的选择与目标建议框(anchor box)的生成过程这一操作类似于传统目标检测算法中所采用的那种基于滑动窗口策略的方法。具体而言,在这一过程中我们需要深入了解以下关键点:一是RPN网络的具体区域推荐算法实现原理;二是如何从候选区域中筛选出最优的目标建议框;三是如何通过RoI Pooling技术提取高质量的目标候选特征并将其输入到分类器与回归器模块中进行精确的目标定位与边界预测任务。

在RPN网络中,一个关键步骤是区域推荐,在这一过程中,在区域推荐算法中扮演着重要角色的是锚点机制。例如,在当前的特征图中(feature map),其尺寸为ncwh,在wh的空间上每个位置都设定了一个锚点的数量(anchor)。这些锚点实际上是候选区域中心的位置标记。随后以每个锚点为中心来提取候选区域,并将这些锚定点称为anchor(每个位置上的元素)。接着通过设定特定的比例范围从该中心位置向外扩展一定比例来生成候选框(candidate region)。具体来说,在Faster RCNN中通常会采用9种不同的比例来生成9个候选框(anchor),因此在一个特征图上将总共生成wh9个候选框(candidate region)。然后利用真实标签GT对选中的候选框进行筛选,在筛选过程中得到正样本与负样本两类数据样本:其中正样本指的是包含目标的真实框(ground truth box),而负样本则指不包含目标的真实框;两者之间的判别依据是基于两个框的最大重叠面积(overlap)度量标准即交并比(IOU)值判断的标准:当交并比大于等于0.7时判定为正样本;当交并比小于等于0.3时判定为负样本;而对于介于两者之间的中间区间,则不参与RPN网络分类器的训练过程

在RPN网络中扮演着一层角色,在输入端包含了三个关键组成部分:原始的目标检测结果即RoI(区域坐标),对应的特征映射以及具体的区域参数设置。通过执行 ROI pooling 处理后生成具有统一尺寸的特征映射空间。具体而言,在输入端包含了三个关键组成部分:原始的目标检测结果即RoI(区域坐标),对应的特征映射以及具体的区域参数设置。通过执行 ROI pooling 处理后生成具有统一尺寸的特征映射空间。具体而言,在执行这一过程时首先实现了基于区域定位信息进行目标捕获的过程,并随后将捕获到的目标特征调整至一致尺寸以便于后续处理需求满足全连接层对统一空间维度的要求

10 one-stage 基本介绍,流程与常见算法

该算法在接收输入后,经由主干网络完成CNN特征提取的过程.随后立即执行区域分类以及位置修正的任务.未包含RPN网络作用步骤,其相较于两阶段的目标检测方法,在核心区别在于是否采用了候选区域推荐这一环节.

其中 yolo 和ssd是最具有代表性的两种算法

11 one-stage核心组件

主干网络无论是基于one-stage的目标检测架构还是基于two-stage的目标检测架构都不可或缺。此外,我们还需要构建一个回归网络,这个网络未必仅仅是一个简单的回归,可能会涉及到一些相应的策略

同样地,在卷积神经网络的发展过程中,“由简单逐步发展至复杂,并最终回归至相对简单的架构”的这一过程体现了网络架构优化的基本规律。当速度因素可以忽略时,“通常会采用较为复杂的一种结构”。然而,“当性能成为关注焦点时,则会选择第二个方案——即采用一个轻量级的网络架构。”这一过程展现了在不同优化目标下的权衡策略:在追求效率时倾向于使用轻量化设计;而在功能需求更为严格时,则需要采用更为复杂的模型架构以达到预期效果。

在这一阶段中,我们深入探讨了一种基于一阶段目标检测的一类深度学习算法,其中回归网络占据核心地位。该网络以之前介绍过的主干网络为基础,通过其完成卷积特征提取后获得的feature map作为输入信号,从而完成区域回归与目标类别判定的任务。具体而言,区域回归机制通过直接输出目标对应的bounding box位置信息实现定位功能,其中该位置信息可参考PPT中的红框与蓝框示例进行理解,它们分别代表目标区域与背景区域的关键标记。此外,在回归过程中我们还会获得置信度值,此值能够量化当前bounding box内是否存在目标物体:若存在则为目标区域;若不存在则为背景区域。以图右方为例,图片被划分为多个小格子单元体,每个单元体均会执行区域回归操作,输出对应单元体内的位置信息、置信度及类别标签等结果指标。对比图中1号与2号格子可见:1号格子位于目标框内且具有较高的置信度值;从类别角度来看,1号格子对应的是"狗"类目而2号格子对应的是"背景"类目;因此我们可以观察到1号格子处狗的概率分布更为集中于相关特征点上而2号格子处背景的概率分布则更加广泛地覆盖了非目标区域

除了基于区域的回归方法之外,其他研究者也可以借助Anchors机制定位目标区域。值得注意的是,在单阶段模型中,并没有像RPN那样用于提取推荐区域特征的网络模块。然而,在单阶段模型中,并没有像RPN那样用于提取推荐区域特征的网络模块。与之相比,在多阶段模型中(如SSD),通常会先定位候选框再进行分类。

我们通过YOLO模型来阐述一阶段回归网络的工作流程。在计算过程中,该模型将整张图片划分为S×S个网格单元,并对每个单元格进行处理。具体而言,在每个网格单元内会预测一个边界框位置信息以及与之相关的置信度值。这些边界框用于定位可能存在的目标物体。同时,在每个单元格中还会输出一个类别概率向量,在分类任务中用于推断目标所属的具体类别。通过这种方式,YOLO算法能够高效地完成图像检测任务并输出高精度的结果

YOLO是一种基于端到端架构的回归模型,在图像识别任务中表现出色。相比于传统方法而言,其整体流程更加简洁明了,并且在实时性能上表现更为出色。然而,在准确性方面存在一定的局限性,在某些复杂场景下可能导致部分目标物体未被检测到。

12 one-stage 和 two-stage 优缺点对比

全部评论 (0)

还没有任何评论哟~