Advertisement

【Paper Reading】Deep Neural Networks for Object Detection

阅读量:

1. 摘要

采用深度神经网络(DNN)进行目标检测,在该领域(由两个关键环节构成:即为目标识别与位置定位)上(经过分析发现,在2013年相关论文发表时观察到的是基于CNN的方法并未展现出显著的优势),这一技术方向仍存在明显局限性)。本文研究者将其视为一个回归问题:通过回归预测其包围盒(BoundingBox)的位置。

首先,作者开发了一个基于深度神经网络(DNN)的回归方法,在该方法中生成了目标bounding boxes的二值mask表示;其次,在这些mask的基础上推导出目标物体的位置信息;最后,在全图的基础上进行微调处理,并对较大尺寸的对象进行优化调整以提升定位精度。下图展示了基于深度神经网络实现的目标检测原理框图(Figure 1)以及模型微调流程示意图(Figure 2)。

在这里插入图片描述
在这里插入图片描述

2. 主要内容

解决的问题:

本文对此进行了深入探讨,并着重分析了三个关键问题。首先,在当前研究中仍存在一个未被解决的主要难题:单一的Object Mask难以精确识别相互靠近的不同物体;其次,在模型输出大小受到严格限制的情况下(例如,在400×400的图像中仅有约16×16的像素单元),生成的目标掩膜在原始图像中的比例过小(例如,在400×400的图像中仅有约16×16的像素单元),导致难以精确定位目标;再次,在此情况下较小规模的对象对该机制的影响较为有限

Multiple Masks for Robust Localization:

在图像中识别多个相互作用的对象时,在传统方法中仅能生成一个Object Box Mask来表示完整对象或其一部分这一限制下,在本研究中我们采用一种新的方法:即生成不是单个而是多个Obinary Masks(OBMask),每个OBMask分别表示完整对象或其不同部分。基于模型预测Object Box Mask的同时我们还设计了四个辅助网络分别用于预测Bottom、Top、Left和Right半框这一创新性解决方案旨在提升物体检测的准确性和鲁棒性。为此我们定义了m_h其中h∈\{full,bottom,top,left,right\}这些关键参数构成了物体检测中的超完备集合从而使得在面对复杂场景时能够更好地处理部分缺失的数据情况进而提高整体检测效果

Object Localization from DNN Output:

为了实现检测目标,该系统需要为每个输入图像估计一组对应的边界框(Bounding Boxes)。尽管模型输出的空间分辨率低于输入图像的空间分辨率(spatial resolution),但我们可以通过将模型输出的二值化掩膜(Binary Masks)重新缩放的方法来获得与输入图像分辨率一致的空间尺度表示。我们的目标是在模型输出Mask坐标系中确定一个四参数边界框bb=(i,j,k,l),其中左上角坐标为(i,j),右下角坐标为(k,l)。

Multi-scale Refinement of DNN Localizer:

针对网络输出的Binary Masks分辨率不足的问题,本研究提出以下两种方法进行解决:首先,在多个尺度层和较大的子窗口区域内分别应用DNN Localizer;其次,在基于Top-Down推理得到的Bounding Boxes上应用DNN Localizer以提升检测性能(如图2所示)。

基于不同尺度的大窗口,在此过程中我们制作若干个Mask,并将其整合为更高分辨率的Mask集合;每个Scale独立处理这一特性有助于提升整体效果——合适的Scales范围受其影响较小:一方面确保图像能被高分辨率网络处理;另一方面保证每个目标至少出现在一个有效窗口中且避免过多冗余窗口的数量。

旨在达成这一目标,在本研究中我们采用三个层级:完整的图像以及另外两个层级(此处需注意原文是否有误),其大小为前一层次对应区域面积的一半。通过每个尺度范围内的区域来覆盖整个图像,并确保各区域之间存在显著重叠——具体而言,在每一层中所占的比例仅为20%左右。值得注意的是,在多个层次范围内对整个图像进行这种划分策略能够有效减少计算复杂度的同时保证较高的识别精度。此外,在最低分辨率层能够提供更为精细的位置信息。

当进行推理时,在每一个窗口上都部署了深度神经网络(DNN)。值得注意的是该方法与传统的滑动窗口方法存在显著差异这是因为我们需要对每个图像进行有限数量(通常少于40)的小区域检测。为了提高检测效率我们将生成的所有Object Mask通过最大值操作(Maximum Operation)进行合并从而为我们提供不同尺寸图像对应的Mask集合。这种设计使得我们可以分别关注不同尺寸对象的独特特征。随后针对每一个尺度层我们在第3节所述的方法框架下执行Bounding Box推理以获得一系列候选目标框结果。具体而言在我们的实现过程中我们在每一个尺度层选择了前五次检测结果这样总共在三个尺度层得到了15次有效的目标框检测结果

为提升定位精度,在第二阶段我们实施精细化优化措施,并采用深度神经网络(DNN)回归技术作为主要工具。通过将DNN Localizer应用于初始检测阶段所识别的目标区域,并对其边界框进行放大至1.2倍的比例因子处理后导入模型中进行训练。因此,在高分辨率的二值化掩模上部署定位器能够显著提升检测的准确性

完整算法:

在这里插入图片描述

参考资料

[1] 第一个链接提到了一篇论文翻译的文章:https://www.cnblogs.com/CZiFan/p/9671415.html
[2] 第二个链接补充了第一篇不够全面但更具可读性的一些内容:[()
[3] 第三个链接提供了一个详细的解读:https://zhuanlan.zhihu.com/p/36295039
[4] 第四个链接则是一个简明扼要的概述:<>

只能看懂流程,细节基本看不懂。

好想回家。

全部评论 (0)

还没有任何评论哟~