Advertisement

CVPR论文阅读:《D2Det: Towards High Quality Object Detection and Instance Segmentation》

阅读量:

CVPR论文阅读笔记:《D2Det: Towards High Quality Object Detection and Instance Segmentation》

      • 创新点
    • 摘要编写
    • 第三章节介绍我们提出的方法
    • 在第3.1节中详细阐述了"密集局部回归"原理
  • 我们所采用的方法与 Rol Pooling 的区别在于采用了"Discriminative RoI Pooling"

  • 第3.2节深入探讨了"实例分割技术"

    复制代码
    * 2 实验
    * * 2.1 数据集和实现细节
    • 2.2 MS COCO 数据集

    • 2.3 UAVDT 数据集

      • 3 实例分割方法比较
      • 5 结论
      • 参考

创新点

本研究引入了一种新型的Two-stage检测方法命名为D2Det;该方法通过基于稠密局部回归的策略并结合二值重叠预测策略优化进而实现了精确的目标定位;同时我们提出了基于判别式的Rol池化方案以实现目标分类任务的精确识别

摘要撰写

  1. 阐述了所采用的方法;
  2. 系统地介绍并概述其创新特性:
    a. 方法基于深度学习框架
    b. 针对多模态数据融合进行了优化设计
    c. 引入自监督学习机制以提升模型鲁棒性
  3. 首先明确了数据集来源于特定领域研究,并具有代表性特点:
    a. 数据涵盖多个关键指标维度
    b. 数据分布特征具有典型性
    随后对比现有技术在以下方面具有明显优势:
    a. 算法框架更为简洁高效
    b. 综合性能指标表现更优
    接着详细展示了实验结果:
    a. 在基准测试集上达到了95%以上的准确率
    b. 在复杂场景下表现稳定性提升20%
    最后总结整个验证过程及其意义。

1 我们的方法(第三部分)

给出总体框架,有逻辑性的陈述理论工作

D2Det 总体框架

新方法的原型是 Faster R-CNN,与 Faster R-CNN 不同的是:

  • 基于独立的分类与回归的方法;
  • 替代Faster R-CNN的框偏置回归方案;
  • 采用discriminative Rol pooling改进proposal方案的分类(精确分类目标)。
1.1 稠密局部回归

该方法将输入图像中的目标区域划分为多个小块,并对每个小块中的像素点进行独立处理

在这里插入图片描述

但是,在候选建议框P与G之间交叠程度较高的情况下,则会导致在k²个局部特征中出现不属于目标物体(如背景等)的情况

为了避免这个情况,运用 二元重叠预测 来对每个局部特征进行分类:

在这里插入图片描述
在这里插入图片描述

在训练阶段中, 二元重叠预测mi采用了sigmoid归一化方法.当σ(m^i)超过阈值0.5时,默认值设为1.(如上图所示)

相较于Faster R-CNN的传统设计,在稠密局部回归中采用全卷积网络对各个候选目标分别进行定位。相对于传统方法而言,在处理锚框时更加复杂。相较于传统的基于全连接层的设计,在稠密局部回归中通过全卷积网络生成多位置的信息以提高检测精度。同时,在计算目标检测时也避免了由于背景区域干扰而导致的误判问题

在这里插入图片描述
1.2 区别 Rol Pooling(Discriminative RoI Pooling)

首先采用一种轻量化偏移量预测方案,在计算资源受限的情况下,在计算资源受限的情况下

在这里插入图片描述
在这里插入图片描述

在偏移量预测之后,在采用加权池化后的方法中得以实现根据具体情况灵活分配更高权重的关键采样点。如图所示,在该方法中各采样点分别对应权重系数w₁至w₄

在这里插入图片描述

⨀表示哈达玛积(Hadamard),即对应位置相乘

F 表示Weighted RoI feature(加权ROI特征)

1.3 实例分割

通过修改密集局部回归分支,本文方法很容易扩展到实例分割。

在给定公式中使用实例分割中的可利用 annotation map 用于标注局部特征 pi∈P 而不是假设 gt 边框 G 的所有区域全部属于同一个物体 基于 mask 的 gt 数据集用于训练二值重叠预测器以及密集回归分支中的偏移量估计 在推理阶段生成实例分割结果的 mask 预测由二值重叠预测器负责

在这里插入图片描述

此外,方法利用两个反卷积层将 输出空间分辨率提高4倍(即从7×7到28×28)和两个全连接层来有效地进行掩模评分。本文方法提供了一个高效的实例分割框架并具备很强的分割性能。

2 实验

2.1 数据集和实现细节
  • 该研究基于MS COCO和UAVDT两个目标检测基准展开了广泛实验。
  • 为了保证数据集的一致性,在训练与测试过程中统一将输入图像的较短边调整至800像素。
  • 本研究采用了基于FPN架构的ResNet模块组合。
  • 定义与ground truth(gt)重叠比例超过50%的所有区域标记为阳性样本;随后,在每幅图像中按照正负比例选取512个区域,并通过这些样本分别对分类分支和稠密局部回归分支进行训练。

在 MS COCO test-dev 数据集上的目标检测算法进行了比较中,当采用带有 FPN 的 ResNet101 主干架构时,在此主干架构下 D2Det 表现出了色,并且其整体平均精度(AP)达到45.4% ,这一指标超越了所有基于相同主干架构并采用 FPN 架构的所有现有两阶段方法

此外,在采用相同的技术路线时(即使用相同的算法框架),相较于DCN v2方法(即现有的对比方法),D_{\text{det}}提升了约3.4个百分点(即百分点差距)。此外,在多尺度的训练与推理过程中(即考虑不同尺度下的数据处理),我们提出的D_{\text{det}}^{*}模型达到了50.1的总体平均精度AP(即Average Precision)。

在这里插入图片描述
2.2 MS COCO 数据集

D2Det在COCO测试dev上的定性结果:

在这里插入图片描述

误差分析图呈现了D2Det与Grid R-CNN Plus分别在80个类别中的总体对比以及较大对象的细分比较。每个子图像展示了多种评价标准下的精确召回曲线。

在这里插入图片描述

基于DLR和DRP作为基准(MS COCO minival),本文方法在性能上有所提升,并较基准提升了约4.7%。

在这里插入图片描述
2.3 UAVDT 数据集
在这里插入图片描述

3 实例分割方法比较

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 结论

  • 本研究提出了一种两阶段检测框架,在精确目标定位和分类方面取得了显著进展。
    • 为了解决目标的精确定位问题,在特征空间中引入了稠密局部回归模型。
    • 通过自适应加权采样子区域特征并结合区域识别算法, 我们提出了与RoI pooling不同的分类方法。
  • 实验结果显示,在MS COCO和UAVDT数据集上,D2Det达到了当前最佳的检测性能。

初稿写作经历虽然是进行了深入阅读,
但仍然存在一些基本点未深入掌握,
希望各位经验丰富的博主能在指正中帮助我澄清这些误解的地方,
尤其是在方法思路逻辑上提出建议。

参考

<>
该算法通过引入新的数据结构实现了更高的效率。
<>
该研究探讨了一种新的计算模型及其在实际应用中的表现。

全部评论 (0)

还没有任何评论哟~