Advertisement

论文笔记 Deep Learning for Generic Object Detection: A Survey (一)

阅读量:

本文综述了过去十年间物体检测领域的成就,并对各个具有里程碑意义的成果进行了详细阐述。自己在阅读过程中也积累了大量的知识,并希望能够将这些体会与学习经历进行记录与分享。

目录

  • 总体介绍

    • 问题描述
    • 难点&挑战
    • 过去20年来的发展
  • 物体检测框架

      • 基于区域的(两阶段架构)
      • Region-based Convolutional Neural Network (R-CNN)
        • Selective Pyramidal Pooling Network (SPPNet)
        • Fast R-CNN: 一种快速基于区域的卷积神经网络
        • Faster R-CNN: 一种比Fast R-CNN更快的基于区域的卷积神经网络

总体介绍

问题描述

物体检测目标:给定任意一张图像,识别其中是否存在指定类别的物体,并输出该物体的位置坐标及其尺寸信息。
发展历程:基于图像级别的物体分类 -> 单物体定位 -> 通用物体检测 -> 像素级对象分割

在这里插入图片描述
  • 物体分类(object classification) 从一副图像中识别并赋予图像中的物体相应的标签,并无需进行目标定位操作 如图所示 (a)

  • 物体检测(object detection) 给定一幅图像,在完成物种种别与定位任务的同时,在图中(b)所示的位置标绘出各目标物的边界框

    • 语义分割(Semantic Segmentation) 对图像中的每一个像素点赋予对应的物体类别标签(如图中(c)所示)
    • 实例分割(Instance Segmentation) 与前两项不同的是,在此方案中对同一类别下的多个实例均会独立完成识别并进行精确划分(如图中(d)所示)

难点&挑战

The multitude of class-specific variations refers to the diverse characteristics observed within the same subclass, which can manifest in terms of appearance, material, shape, and other attributes. These variations become more pronounced under different imaging conditions such as varying capture times, locations, weather scenarios, and background positions.

大量物体类别
一共approximately~10,000~to~10,568种、某些类别之间的界限极其模糊

在这里插入图片描述

性能受限于移动设备与可穿戴设备所具有的有限存储空间与计算能力的同时面临优化算法的整体计算复杂度水平。

过去20年来的发展

在这里插入图片描述

在1990年以前,在几何表示的基础上形成了典型的物体检测方法;随后,在统计分类的框架下发展出了神经网络、支持向量机(SVM)、Adaboost等方法。
在20世纪晚期和21世纪初期,在计算机视觉领域取得了重大进展;正如图中所示,SIFT与深度神经网络(DCNN)共同开启了视觉计算的新时代;人工提取的图像特征逐渐流行起来;包括尺度不变特征变换(SIFT)、梯度直方图(HOG)、局部二进制模式(LBP)等在内的各种特征提取方法应运而生。
当深度神经网络(DCNN)在图像识别系统上取得重大突破后,这种技术也被成功应用于物体检测领域;Girshick提出了一种具有里程碑意义的物体检测模型——区域基卷积神经网络(RCNN),这种方法标志着计算机视觉领域的重大进步,也为后续基于深度学习的方法奠定了基础。

物体检测框架

在这里插入图片描述

物体检测框架发展如上图所示。上面的框架可以分为下面两个类别:

  • 两阶段检测框架主要包含生成区域建议框的预处理阶段,并随后执行物体分类及边界框回归等后续操作。
  • 单阶段检测框架无需生成区域建议框即可完成任务

Region Based(Two Stage Framework)

RCNN

Region-based CNN源自Girshick,在CNN在图像分类领域的巨大成功以及selective search(用于生成region proposal)等人工特征提取方法取得的启发下提出;这是计算机视觉领域的一个开创性贡献;随后的发展大多在RCNN的基础上有所创新;具体的训练与测试流程如图所示。

在这里插入图片描述

训练过程

首先利用Region Extraction方法生成2000个候选区域(Region Proposals)。随后将这些候选区域经变形操作(缩放)至统一尺寸(便于后续全连接层处理),作为已训练好的CNN模型输入数据集参与微调训练过程。接着基于CNN提取特征表示,并对每个类别分别训练线性SVM分类器替代最后卷积神经网络中的Softmax分类器。最后针对各个类别分别利用CNN提取特征构建Bounding Box Regression模型用于边界框定位预测。

缺点

  • 训练过程是multi-stage的,在每个阶段都必须分别进行复杂的且低效的训练。
  • 训练SVM和回归器耗时耗力。
  • 测试运行速度极为缓慢,在此之前每个候选窗口都需要经过CNN模型进行特征提取。

SPPNet

由于基于CNN的方法在特征提取方面存在局限性,在研究领域中首次提出的SPPNet模型中提出了空间金字塔池化机制(Spatial Pyramid Pooling Layer)。考虑到全连接(FC)层的存在要求输入图像必须保持固定尺寸并进行校直处理过程,在卷积神经网络模型顶部添加了空间金字塔池化模块之后,在经过该模块处理之后能够得到统一长度的空间表征向量。这一策略的好处在于使得整个网络能够适应不同尺寸的照片输入,并且通过这一机制实现了一致化的空间表示输出。

首先利用region proposal网络生成2000个候选区域(target region),这一过程与RCNN具有相似性。
在特征提取阶段的主要区别在于:我们先将整个图像输入到CNN中完成特征提取工作,在此过程中生成feature map并从中筛选出各候选区域;随后对每个候选框执行金字塔池化操作以获取统一长度的特征向量;值得注意的是,在SPPNet中仅需对图像执行一次CNN特征提取即可完成后续流程,在此过程中相较于传统方法RCNN显著提升了运行效率。
最后一步与RCNN一致地运用SVM算法对特征向量进行分类识别并完成目标框的定位。

Fast-RCNN

改进了现有模型结构并优化了RCNN及SPPNet算法局限性的同时实现了端到端的学习过程。同时提出了一种基于区域的选择机制即RoI pooling层通过该机制能够有效地提取具有统一尺寸的空间表征。

  1. 构建了一个涵盖多个训练目标的综合损失函数,在其中包含softmax和BBRs等核心指标。
  2. 基于共享卷积核的设计方案实现了特征提取过程中的参数共享。
  3. 该网络架构中,在最后一个卷积层上为每个区域 RoI 建立相应的映射关系,并通过引入 RoI pooling 层实现了特征空间的一致化处理。

具体步骤和RCNN相似。

在这里插入图片描述

Faster-RCNN

创新点

  1. 替代selective search方法以显著提升整体运行速度。
  2. 利用RPN生成目标候选框后,在最后一层卷积层生成的特征图上执行RoI池化操作以获得统一尺寸的特征图,并最终完成分类与回归任务
在这里插入图片描述

未完待续…

全部评论 (0)

还没有任何评论哟~