Advertisement

Fused DNN: A deep neural network fusion approach to fast and robust pedestrian detect

阅读量:

1.引言

行人检测在视频监控,个人识别,图像检索和驾驶辅助系统(ADAS)等多个领域有应用。实时准确的行人检测是应用这种系统的关键。行人检测算法旨在实时绘制 描绘图像中行人位置的 边界框。然而,由于精度和速度之间的折中,这是很难实现的[8]。低分辨率输入通常会导致快速的物体检测,但性能较差,可以通过牺牲处理速度为代价的高分辨率输入来获得更好的物体检测性能。(不懂)其他因素如密集场景,非人遮挡物体或不同外观的行人(不同的姿势或服装风格)也会使这个问题充满挑战。

行人检测的一般框架可以分为区域提案生成,特征提取,和行人验证[9]三部分。经典方法通常使用基于滑动窗口的技术来生成区域提案,梯度方向直方图(HOG)[6]或尺度不变特征变换(SIFT)[22]作为特征,支持向量机(SVM)[2]或自适应提升方法(Adaptive Boosting)[11]作为行人验证方法。最近卷积神经网络也被应用于行人检测。 Hosang等[14]使用SquaresChnFtrs [1]方法生成行人区域建议,并训练AlexNet [17]进行行人验证。张等人[31]使用区域提案网络(RPN)[23]计算行人候选区域,级联的Boosted Forest [7]执行样本重新加权,对候选区域进行分类。Li 等人[18]训练多个 基于Fast R-CNN [12]的网络以检测不同尺度的行人,并将所有网络的结果进行组合生成最终结果.

我们提出了一种深层神经网络融合架构来解决行人检测问题,称为Fused Deep Neural Network(F-DNN)。与以前的方法相比,我们提出的系统更快,同时实现更好的检测准确性。该架构包含一个行人候选区域生成器,通过训练一个高检测率、false positive率很高的深度卷积神经网络获得。提出了一种称为soft rejection based network fusion的新型网络融合方法。它采用一个由多个深层神经网络组成的分类网络,以改善行人候选区域。他们的soft 分类概率使用soft-rejection based network fusion method与原始候选区域融合。一个并行语义分割网络,使用深度扩张卷积

和上下文聚合[30],对行人候选区域进行另一个soft confidence vote,进一步的对行人候选区域生成器和分类网络融合。

我们的工作在Caltech Pedestrian数据集[8]上进行了评估。 我们将log-average miss rate从9.58%(先前最佳结果[31])提高到8.65%(语义分割网络为8.18%)on the reasonable evaluation setting。 同时,我们的速度是1.67倍快(“Reasonable”test的3倍快)。 我们的数值结果表明,所提出的系统是准确,robust和高效的。

本文的其余部分安排如下。 第2节详细说明了我们方法的每个步骤。第3节讨论实验结果,并探讨我们的方法的每个组成部分的有效性。 第4节总结并探讨未来的工作。

2.The Fused Deep Neural Network

所提出的网络架构由行人候选区域生成器,分类网络和像素级别语义分割网络组成。所提出的网络融合架构的流程如图1所示。

对于本文中描述的实现,候选区域生成器是SSD[20]。SSD生成大量候选区域,目的是检测所有true的行人,导致大量的false positive。每个行人候选区域与其定位框坐标和置信度分数相关联。通过降低置信度分数阈值,高于阈值的候选区域被接受,主检测器产生各种大小和遮挡的候选区域。分类网络由多个并行的二分类器组成。我们提出一种称为soft-rejection based network fusion(SNF)的网络融合新方法。基于对来自分类器的候选区域的综合信心度,行人候选区域的置信度得分被提升或打折,而不是执行接受或拒绝候选区域的硬二分类。我们进一步提出一种具有语义分割(SS)的上下文聚合扩展卷积网络作为另一种分类器,并将其整合到我们的网络融合架构中。然而,由于输入规模大和网络结构复杂,提高了精度,但牺牲了速度。

2.1. Pedestrian Candidate Generator

我们使用SSD来生成行人候选区域。 SSD是一个前馈卷积神经网络,以截断的VGG16作为基础网络。在VGG16 base中,pool5被转换为3×3,步长为1,fc6和fc7被转换为使用无序算法的卷积层[30]。在基础网络之后添加额外的8个卷积层和全局平均池化层,并且每层的大小逐渐减小。层conv4-3','fc7','conv6-2','conv7-2','conv8-2','conv9-2'和'pool6'用作输出层。由于“conv4-3”具有更大的特征尺度,因此使用L2 normalization技术来缩小特征数量[21]。在每个输出层之后,执行bounding box(BB)回归和分类以产生行人候选区域。图2显示了SSD的结构。

对于每个尺寸为m×n×p的输出层,在每个位置放置一组不同尺度和高宽比的默认BB。3×3×p卷积核应用于每个位置以产生分类分数和相对默认BB位置的BB位置偏移。如果默认BB与任何 ground truth BB具有大于0.5的Jaccard overlap,则默认BB被标记为正,否则为负(如等式(1)所示)

ABBd和ABBg分别代表默认BB和ground truth BB所覆盖的区域。 训练目标由等式(2)给出:

其中Lconf是softmax损失,Lloc是smooth L1 localization损失[12],N是正默认框的数量,α是常数权重项,以保持两个损失之间的平衡。 有关SSD的更多详细信息,请参阅[20]。由于SSD使用7个输出层来生成多尺度BB输出,因此它提供了大量的不同尺度和纵横比的候选区域。 这对于后续工作非常重要,因为这里生成的行人候选区域应该覆盖几乎所有的ground truth 行人,尽管同时引入了许多false positive。 因为SSD使用全卷积框架,速度很快。

2.2. Classification Network and Soft-rejection based DNN Fusion

分类网络由多个二分类深层神经网络组成,运用第一阶段的行人候选区域进行训练。收集置信度大于0.01和高度大于40像素的所有候选区域作为分类网络的新训练数据。对于每个候选区域,我们将其缩放到固定大小,并直接使用从等式(1)收集的正/负信息进行标记。
训练结束后,执行验证方法以产生最终结果。传统的硬二分类导致了严格的拒绝,并根据一个分类网络的单一的负面投票排除一个行人候选区域。相反,我们介绍SNF方法,其工作如下:考虑一个行人候选区域和一个分类器。如果分类器对候选区域有很高的置信度,我们通过乘以大于1的置信度比例因子,提升从候选区域生成器计算的原始分数。否则,我们以小于1的比例因子减小其分数。我们将“置信度”定义为至少ac的分类概率。为了防止任何分类器占主导,我们将bc设置为缩放因子的下限。pm是由第m个分类器对此候选区域的分类概率,缩放因子由等式(3)计算。

其中ac和bc通过交叉验证被选择为0.7和0.1。 为了融合所有M个分类器,我们将候选区域的原始置信度乘以分类网络中所有分类器的置信度比例因子的乘积。 这可以表示为等式(4)

SNF的主要思想是我们不直接接受或拒绝任何候选区域,而是根据分类概率对其进行比例缩放。 这是因为不正确地排除正的行人(例如硬二分类)是不正确的,可以通过来自其他分类器的较大分类概率来补偿低分类概率。

2.3. Pixel-wise semantic segmentation for object detection reinforcement

我们利用基于深度扩展卷积和上下文聚合的SS网络[30]作为并行分类网络。 SS网络在用于驾驶场景分割[5]的Cityscapes数据集上进行了训练,为了执行dense预测,SS网络由完全卷积的VGG16网络组成,适用于扩展卷积作为前端预测模块,其输出被馈送到完全卷积的多尺度上下文聚合模块,全卷积网络的卷积层具有越来越大的膨胀因子。
输入图像被SS网络缩放并直接处理,产生二进制掩码,一种颜色显示行人类别的激活像素,另一种颜色显示背景。我们考虑Cityscapes数据集中的“person”和“rider”类别为行人,其余类别为背景。 SS掩码与从SSD所有检测到的BB从相交。我们提出一种融合SS掩码和原始行人候选区域的方法。每个候选区域的BB与SS激活掩码中的行人类别重叠的程度,给出了一个度量SS网络对候选区域生成器结果的置信度。我们使用以下策略来融合结果:如果行人像素占候选区域的BB区域的至少20%,我们接受候选区域并保持得分不变;否则,我们应用SNF来缩放原始的置信度分数。这在等式(5)中总结:

其中Ab表示BB的区域,Am表示由语义分割掩码覆盖的Ab内的区域,ass和bss通过交叉验证被选择为4和0.35。 由于我们没有行人检测数据集的像素级标签,我们直接实现了Cityscape数据集[5]训练的SS模型[30]。 图3显示了这种方法的一个例子,并且我们如何将其融合到现有的模型中。
具有SS网络的SNF与具有分类网络的SNF略有不同。 原因是SS网络可以产生 尚未由候选区域生成器产生的 新检测,而不是分类网络的情况。 为了解决这个问题,提出的SNF方法消除了来自SS网络的新的检测。 这个想法如图4所示。

全部评论 (0)

还没有任何评论哟~