Advertisement

《Improved Crowd Counting Method Based on Scale-Adaptive Convolutional Neural Network》论文笔记

阅读量:

Enhanced Crowd Counting Technique Built Upon a Scale-Aware CNN Architecture

  • 论文链接

  • 论文的翻译版本

  • 摘要部分

  • 第一部分 引言段落

  • 第二部分 对SaCNN的介绍

    • 部分一 生成地面真相密度图的部分
      • 部分二 SaCNN的架构设计
  • SECTION III. 改进型SaCNN用于人群计数

    • A. 基于生成式模块构建真实密度图的该SaCNN架构
    • B. 该SaCNN架构的具体设计框架
    • C. 该SaCNN模型的实现过程
  • SECTION IV. 实验

      • A. 数据集
      • B. 评估指标
      • C. 结果与分析
    • SECTION V. Conclusions

论文地址

论文翻译

Abstract

由于多种因素的影响, 如场景变换、复杂的 crowd distributions、illuminance disparities 和 occlusions, 人类群控是一项极具挑战性的技术任务。针对这些问题, SaCNN 采用卷积神经网络生成高质量的人群密度图估计, 并将这些密度图集成以估计总人数。为了进一步提升性能, 提出了一种基于 SaCNN 的改进型人群计数算法。通过优化几何自适应高斯核的扩展参数(如标准差), 可生成更为优质的 ground truth density maps 用于训练数据集。引入权重为4e-5 的绝对计数损失与 density loss 进行联合优化, 从而增强稀人 crowd 的泛化能力。同时, 采用随机裁剪策略来增强训练样本多样性, 进一步提升泛化性能。实验结果表明, 在上海科技大学公共数据集上, 所提方法较 SaCNN 取得了更好的人群计数效果

SECTION I. Introduction

人群计数旨在估算人群场景中的行人数量的同时获取人群密度分布信息。当人群密度超过设定阈值时, 容易引发公共安全问题,因此该研究具有重要意义,并广泛应用于视频监控、交通管理以及城市规划等多个领域,同时也是目标检测、行为分析、对象跟踪等计算机视觉任务的基础性研究之一

相较于传统基于滑动窗口检测行人的方法, 基于回归的人群计数方法近年来受到了广泛关注, 其优势在于能够有效处理高密度场景下的复杂情况

对于基于回归的方法, 初始研究建议直接映射低级特征与局部图像块中的行人数量计数之间的关系, 但这种做法忽略了重要的空间信息

Lempitsky 和 Zisserman 提出了一种线性映射模型, 将图像块的局部特征与其对应的密度图之间的关系纳入考虑范围

通过积分密度图中任意区域即可得到相应区域内的总人数

Pham 等人提出了一种非线性映射模型以提高估计精度

Wang 和 Zou 提出了一种基于子空间学习的快速密度估计方法以解决计算效率低的问题

徐和邱等人则通过引入更丰富的特征集提高了估计性能

由于高斯过程回归过于复杂难以处理高维特征, 因此改用随机森林作为回归模型

近年来卷积神经网络在计算机视觉任务中取得了显著成功

Wang 等人首次将Alexnet架构应用于行人计数任务并取得了显著效果

然而该方法仅能估计行人的数量而无法提供浓度分布信息

Fu 等人将人群密度划分为五个等级: 超高、高、中、低及极低密度

他们参考Sermanet 的多尺度卷积神经网络提出了相应的评估体系

张等认为现有方法在新场景下的泛化能力会大幅下降

为此提出了一种数据驱动的方法通过微调预训练CNN模型来适应未知场景

Zhang等人提出了多列CNN(MCNN)以适应不同分辨率透视图或行人头部尺寸引起的场景变化

但由于训练过程复杂参数众多导致网络训练难度较大

  • 研究SaCNN中用于几何自适应高斯核的头部尺寸估计参数设置时发现,在相对稀疏的场景中这种估计可能导致较大的误差。这种影响可能进而影响地面真实密度图的质量,并使人群计数精度下降。因此,在改进阶段我们采用了更为精确的设计方法来优化标准方差。
  • 采用绝对计数损失函数和密度图损失共同进行优化以提升行人少人群体下的网络泛化能力。
  • 本研究在ShanghaiTech公开数据集上进行了系列实验验证,在多个评估指标上均展现了改进型模型较传统模型显著的优势。
  • 本文结构安排如下:第二部分将详细介绍SaCNN的基本原理和架构设计;第三节将深入讨论改进型模型及其在人群计数中的应用效果;第四部分则阐述了实验方法及结果分析;最后第五部分是对全文结论的总结与展望。

SECTION II. Introduction on SaCNN

在SaCNN 30版本中通过人群图像映射到相应的密度图完成对密度图的积分运算从而得出人群计数结果。本节将详细阐述SaCNN的工作原理及其相关内容包括生成过程架构设计以及实现步骤。

A. 生成地面真相密度图

在SaCNN架构中采用几何自适应性高斯核构建高精度地面真实密度图以实现目标检测任务

其中变量 N 被定义为人群图像中的整体头部数量。其分布参数 σ_i 代表了基于几何自适应的高斯核的标准偏差,并受到目标点之间平均间距的影响(如文献[28]所述)。其中常数 k 被设定为2)。此外,在人群密度较低的情况下,在实际应用中建议将每个行人的头部尺寸(即高斯内核的有效宽度)限定在100像素以内。(当 \overline{d}^i> 100\text{px} 时,则将其设为100px)。

B. Architecture

SaCNN的结构如图1所示,包括网络和损耗函数。

在这里插入图片描述

~~~~~~SaCNN网络架构借鉴自VGG模型31,并继承其前5个卷积模块。该网络采用下采样倍率为8的设计方案。为了融合 conv5_3conv6_1 的特征信息,在池化层5引入步长为1的操作,并结合解卷积运算实现对原始图像1/8分辨率特征图的重建功能。随后通过 Conv4_3 实现跨层特征融合,并运用反卷积操作生成特征图。在后续 Conv7_1Conv7_2 层中逐步缩减特征图尺寸。最后通过带有 1×1 滤波器的卷积模块生成密度图,并通过集成多个结果来实现人数计数估计。
~~~~~~在SaCNN的设计中,我们采用了密度图损失函数与相对计数损失函数来进行协同训练。
~~~~~~密度图损失函数定义如下:

{L_{D}} ({\theta })=\frac {1}{M} \sum \limits _{i=1}^{M} {\left \|{ {F_{d}} ({X_{i}};{\theta })-{D_{i}}} }\right \|^{2}}\tag{2}

其中 θ 是网络中待训练的一组参数集合,在此过程中 M 代表训练图像总数目,在输入图像 X_i 的基础上生成相应的地面真实密度图 D_i 。通过计算每个像素点上估计密度图与真实密度图之间的欧几里得距离并累加得到损失值。
为了获得高质量的人群密度分布从而实现准确的人群计数目的相对计数损失函数被采用其数学表达式为:

L_{Y} (\theta)=\frac {1}{M} \sum \limits _{i=1}^{M} {\left \|{ {\frac {F_{y} (X_{i};\theta)-Y_{i}}{Y_{i} +1}} }\right \|}^{2}\tag{3}

其中 F_{d} ({X_{i}};{\theta }) 是通过积分获得的估计头数,Y_i 是地面真头数。

SECTION III. The Improved SaCNN for Crowd Counting

本文所提出的方法是以基于SaCNN为基础的设计体系构建而成的,在算法实现过程中对几何自适应高斯核参数设置方案进行了优化设计,并对损失函数以及其实现方案进行了优化设计,在本节中将详细阐述上述改进的具体内容

A. 改进的SaCNN的地面真相密度图的生成

~~~~~~地面真实密度图的质量对于基于CNN的训练模型如SaCNN具有重要意义。在SaCNN中生成用于训练的地面真实密度图的几何自适应高斯核是有效的。但是,代表磁头估计大小的内核大小和确定磁头估计大小精度的散布参数设置都可能影响地面真密度图的质量。
~~~~~~通过分析SaCNN中适应几何的高斯核的参数设置以生成地面真实密度图,我们发现距高斯核的平均距离 k 即使最近的邻居估计每个行人的头部大小也不适合稀疏人群场景,即使头部大小限制在100像素以内。如图2所示(包围框代表估计的头部大小),在密集人群中估计的头部大小是适当的。例如,对于由于透视变换而导致的较小头部大小,则到k 最近的邻居也很小。但是,它不适合人群稀疏的场景。如图3所示(边界框代表估计的头部大小),估计的头部大小稍大,这导致估计值与地面实况之间存在相当大的误差,并进一步影响了生成的地面实况密度图的质量。

在这里插入图片描述
在这里插入图片描述

鉴于此,我们致力于改进头大小的最大限制(即 \overline{d}^i 限制)以及高斯核的扩展参数 σ(标准方差),以推测头大小的变化。遗憾的是,在实验中未能找到另一个适合 \overline{d}^i 限制的有效设定。然而,在高斯核扩展参数 σ 上取得了令人满意的设定。数值上来说,则是高斯概率分布离散程度的一个指标。值得注意的是,在这种情况下建议将 σ 值设定为较小值更为合适。如图1所示,

\sigma = \beta \cdot \overline{d}^i

其中系数 \beta = 0.12. 根据我们的实验发现:若将 \overline{d}^i 的最大限制设至与SaCNN一致,并相应地将系数 \beta = 0.12, 则可实现系统性能的最佳表现。

B. 改进的SaCNN的体系结构

~~~~~~图4显示了本文使用的架构。将我们的架构与图1中的SaCNN架构进行比较,可以看出:

(1)两组架构采用了相同的网络架构;
(2)两组架构均采用了密度图损失函数与计数损失函数来优化其网络结构;
(3)值得注意的是,在SaCNN架构中所采用的计数损失函数与我们改进后的版本存在差异。
(如图3所示),在改进后的SaCNN中使用的人员数量损失函数是绝对数量损失。
其公式表示如下:

{L_{Y} (\theta)}=\frac {1}{M}\sum \limits _{i=1}^{M} {\left \|{ {F_{y}} (X_{i};{\theta)-Y_{i}} }\right \|^{2}}\tag{4}

其中 F_{d} ({X_{i}};{\theta }) 是通过积分获得的估计头数,Y_i 是地面真头数。

在这里插入图片描述

采用权重为4e-5的绝对计数损失替代相对频率损失,并将其与密度图损失结合使用,在行人数量较少的场景中提升模型在不同人群规模下的适应能力。

C. 改进的SaCNN的实施

通过提升训练样本的多样性程度,在强化网络在不同数据分布下的泛化能力方面采取了创新性措施。具体而言,在每次迭代过程中,采用随机裁剪的方式从原始图像中提取patch进行处理,并确保这些patch满足输入要求即高度与宽度均为8的整数倍这一前提条件。在此基础上,在每一次迭代操作中均会从原始图像中提取出尺寸统一设定为256×256像素范围内的不同区域块进行分析与优化计算。为了实现高效的参数更新目标,在优化算法选择上采用了动量优化器这一成熟的技术方案,并设置了初始学习率为1e-5的标准参数值;同时根据预设的学习率衰减策略将学习率逐步衰减至最终值1e-8;其中涉及的具体参数设置如动量因子及batch大小等均与SaCNN模型保持一致以确保算法的一致性和可比性

SECTION IV. Experiments

该实验在伯克利视觉与学习中心(BCVL)提供的Caffe框架环境下运行。其中所使用的计算机配置包括Intel(R)Xeon CPU E5-2683 v3 @ 2.00Ghz以及NVIDIA TESLA K80 GPU。其配备的软件环境包括64位Ubuntu 14.04操作系统、Anaconda 3.4 Python解释器、CUDA Toolkit 8.0以及OpenCV 2.7.0库。

A. Dataset

$~~~~~~我们在具有挑战性的ShanghaiTech数据集14上进行了该实验。该数据集不仅在密度级别上有差异,在复杂场景方面也有显著的不同。本研究涉及的数据集分为A组别和B组别两大部分。其中总共包含1,198张头部图像及330,165个带标签的样本。具体而言,在A组别中我们随机选取了482张图像作为研究样本;而B组别则来源于上海街头的摄影实践。值得注意的是,在样本分布上与A组别相比,B组别的样本更为集中于特定场景区域.在实验设计中,我们将所有样本均划分为训练集与验证集两部分.经过详细分析,A组别的30%用于模型训练,剩余70%作为验证用例;而B组别的分配比例则略高于这一比例,即40%用于模型训练.

B. Evaluation Metrics

~~~~~~平均绝对误差与均方误差被用作评估人群计数效果的标准26–27,28。其中MAE衡量预测值与真实值之间的平均绝对偏差大小,反映的是预测结果的准确性程度;而MSE则衡量预测值与真实值之间的平方偏差总和,能够反映模型预测结果的整体波动性大小以及数据分布的离散程度。其数学表达式如下:

\textrm{MAE} = \frac{1}{M}\sum_{i=1}^{M}\left| z_i - \hat{z}_i \right| \tag{5}

\textrm {MSE}=\sqrt {\frac {1}{M}\sum \limits _{i=1}^{M} {(z_{i} -\hat {z}_{i})^{2}}}\tag{6}

在这些测试中,变量 M 表示图像的数量,在这些测试中变量 z_i
\hat{z}_i
分别代表第i
个图像中的实际人口数与估计人口数。
为了使模型性能达到最佳状态,
可以通过采用较小的平均绝对误差(MAE)
与平均平方误差(MSE)
指标来优化性能

C. Results and Analysis

~~~~~~并与MCNN28、switch - cnn29和SaCNN30进行了比较,实验结果如表2所示。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

然而,在进一步分析A区和B区的具体实验结果后发现:对于高密度人群图像而言,在实际应用中可能会出现较大的估计误差(estimation error)。当行人数量超过约600时,在测试集上的估计性能将显著下降,并导致较大的误差(estimation error)。同样地,在估算的人群数量方面也会出现低估现象(underestimation)。为此我们进行了详细分析:发现主要问题在于A区中的不同类别比例问题(类别比例 discrepancy),即大量低浓度水平的数据样本与少量高浓度水平的数据样本之间的不平衡可能导致系统偏好较低的人群密度评估(ground truth density)。这为我们未来改进人群计数性能提供了重要的研究方向。
此外,在图7及图8中展示了在A区和B区测试集上的实验结果对比情况:包括测试图像、真实密度分布与真实人数分布以及估计密度分布与估计人数分布等几个关键指标进行对比分析。通过对比发现:我们的方法能够有效地识别出人群聚集区域与空旷区域的空间特征(spatial characteristics),其中估算出的人群数量与实际观测值非常接近。

在这里插入图片描述
在这里插入图片描述

SECTION V. Conclusions

开发了一种基于尺度自适应卷积神经网络(SaCNN)的人群计数改进方案


J. J. Fruin, Pedestrian Planning & Design, New York, NY·USA: Metropolitan Association of Urban Planning (M.A.U.P.), 1971

L.Dong等人提出了一种高效的crowd segmentation方法

  1. K. Kang and X. Wang contributed to the development of fully convolutional neural networks in crowd segmentation in 2014

B Zhou, X Wang, X Tang, "Grasping collective group behaviors: Modeling a mixture model of dynamic pedestrian-agents", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.\ 2871–\ 2878,\ June\ 201\ 3

该研究团队在第38届IEEE计算机视觉与模式识别大会(CVPR)上发表的论文中提出了一种场景独立的群组特征提取方法

S. Research Team, X. Wang, C. Lu, J. Jia, H. Li, "Systematic analysis of crowd behavior patterns based on a novel framework of L₀ regularized stationary-time estimation", IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, pp. 981-994, May 2017

M.Rodriguez、I.Laptev、J.Sivic、J.-Y.Audibert合著,“基于密度的人群检测与追踪”,《国际计算机视觉会议论文集》(ICCV)第2423-2430页,Nov 2011年

F.Zhu,X.Wang,N.Yu,"Crowd tracking involving the dynamic evolution of group structures",Proc.Eur.Conf.Computat Vis.(ECCV),pp.139-154,Sep.2014

J.-Yin et al., these authors contributed to the development of deep learning-based characteristics for crowd analysis in the field of computer vision and pattern recognition; they introduced the concept of deeply learned attributes in their work entitled "Deep learning-based characteristics for crowd analysis" published in the proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) in June 2015; their research provided a significant advancement toward enhancing crowd scene understanding through innovative attribute modeling techniques;

V.Mahadevan,W.Li,V.Bhalodia,N.Vasconcelos,"Abnormality identification in dense environments",Proc.IEEEConf.Comput Vis.Patter Recog.(CVPR),pp.1975-1981,Jun.2010

W.\ Li,\ V.\ Mahadevan,\ N.\ Vasconcelos,\ ''Abnormality\ identification\ and\ mapping\ in\ crowded\ scenes,''\ IEEE\ Trans.\ Pattern\ Anal.\ Mach.\ Intell.,\ vol.\ 36,\ no.\ 1,\ pp.\ 18–32,\ Jan.\ 2014.]

An overview of the latest developments in crowd counting and density estimation using CNN-based single-image techniques

K.Chen,C.C.Loy,S.Gong,T.Xiang,"从局部crowd counting中的特征提取角度",Proceedings of the British Machine Vision Conference(BMVC),vol.1,no.2,pp.,Sep.,2012

  1. Y. Wang, Y. Zou, “Fast visual object counting via example-based density estimation”, Proc. Int. Conf. Image Process. (ICIP), pp. 3653-3657, Sep. 2016. ↩︎ ↩︎ ↩︎

D. Oñoro-Rubio and R. J. López-Sastre, "achieving perspective-free object counting through deep learning techniques", Proc. Eur. Conf. Comput. Vis. (ECCV), pp. 615-629, Oct. 2016

G. French, M. Fisher, M. Mackiewicz, C. Needle的研究团队在《机器视觉与动物行为学进展》杂志上发表了一篇关于利用卷积神经网络(CNN)进行渔业监视视频中鱼类数量统计的研究论文

Dr.Zhao and his co-authors conducted a study titled "Image segmentation and object tracking" in the journal IEEE Transactions on Pattern Analysis and Machine Intelligence, focusing on segmentation and tracking of multiple human figures in complex crowd scenarios during the July issue of volume The volume is The year July 2008

W. Ge 和 R. T. Collins 的研究论文 titled “基于标记点过程的人群计数方法”发表于 IEEE 计算机视觉与模式识别会议(CVPR)Proceedings 中的卷积神经网络系列研究中

  1. V. Lempitsky, A. Zisserman, “Learning to count objects in images”, Proc. Adv. Neural Inf. Process. Syst. (NIPS), pp. 1324-1332, Dec. 2010. ↩︎ ↩︎ ↩︎

V.-Q., T., O., R., "COUNT Forest: A Co-Voting Approach for Estimating Crowd Density Using Random Forest Models", Proc.\ IEEE\ Conference\ on\ Computational\ Vision\ and\ Pattern\ Recognition (CVPR), pages\ 3253–3261,\ December\ 2015

Bimal Xu and Guanghui Qiu propose a method for crowd density estimation that integrates rich features with a random projection forest approach, which has been presented at the Proceedings of the IEEE Winter Conference on Applications and Computation Vision (WACV) in March 2016

C.Wang等人的研究在Proc.ACM Int.Conf.Multimedia上发表了一篇题为《Deep people counting in extremely dense crowds》的文章

参考文献[A] Alexandr Krizhevsky, Ilya Sutskever, Geoffrey Hinton等人的论文

  1. M. Fu, P. Xu, X. Li, Q. Liu, M. Ye, C. Zhu, “Fast crowd density estimation with convolutional neural networks”, Eng. Appl. Artif. Intell., vol. 43, pp. 81-88, Aug. 2015. ↩︎

P. Sermanet and Y. LeCun, "Traffic sign recognition with multi-scale convolutional networks," in Proceedings of the International Joint Conference on Neural Networks (IJCNN), pp. 2809-2813, July/August 2011

P. Sermanet, S. Chintala, Y. LeCun, "使用卷积神经网络进行数字识别", 《模式识别学会会刊》, 第ICPR系列会议论文集(Proceedings of the International Conference on Pattern Recognition), 第3288至3291页(Pages), November 2012年(Year). ↦

该研究团队采用基于深度卷积神经网络的方法实现了跨场景人群计数问题的研究,并在《IEEE计算机视觉与模式识别大会》(CVPR)上发表了一篇详细讨论该方法的文章

Y., D., S., S., Y., "被多列卷积神经网络实现的单图像 crowd counting", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 589–597, June 2016

D.B.Sam, S.Surya, R.V.Babu, "Alternative convolutional neural network for crowd counting", Proc.IEEE Conf.Comput.Vision.Pattern.Recognit.(CVPR), pp.6, Jul.2017

Li Zhang, Qian Chen, Menglong Shi's work on crowd counting is based on a scale-adaptive convolutional neural network developed in 2018 year, with the research details available at [online] Available: https://arxiv.org/abs/1711.04433

Extremely deep convolutional neural networks have been developed for extremely detailed large-scale image recognition tasks since 2015 year, which are available at [online] Available: https://arxiv.org/abs/1409.1556.

全部评论 (0)

还没有任何评论哟~