Switching Convolutional Neural Network for Crowd Counting-论文笔记
变换卷积神经网络设计用于人群计数任务旨在实现人群密度估计
- Dynamic Convolutional Neural Network for Crowd Counting
-
- Abstract(摘要)
- 1. Introduction
- 2. Related Work
- 3. Our Approach
-
- 3.1 Dynamic CNN
- 3.2 Pre-training
- 3.3 Differential Training
- 3.4 Dynamic Fine-tuning
- 3.5 Coupled Training
-
4. Experimental studies were conducted to evaluate the performance of the proposed method in various scenarios.
4.1. The evaluation process involved comprehensive testing under diverse conditions.
4.2. The ShanghaiTech’s benchmark was utilized to assess the system's effectiveness.
4.3. The UCF CC-50 benchmark provided a rigorous evaluation platform for our approach.
4.4. The UCSD benchmark demonstrated the robustness of the proposed methodology.
4.5. The WorldExpo’10 benchmark further validated the practical applicability of our solution.
- 5. 分析
-
-
5.1. 回归器数量对Switch-CNN的影响
-
5.2. Switch多分类特性
-
5.3. 属性聚类与分段训练对比
- 6. Conclusion
-
Switching Convolutional Neural Network for Crowd Counting
Abstract(摘要)
我们开发了一种新型的人群计数系统,在该系统中将给定的人群场景映射到其密度分布上。影响人群分析的因素极为复杂多样,在实际应用中需要考虑的因素包括极端拥挤导致的人与人之间相互遮挡的情况、人与背景元素外表高度相似的问题以及摄像机视角的巨大变化带来的挑战性因素。当前最先进的人群计数方法主要基于多尺度CNN架构结合循环网络以及多列CNN特征后期融合的技术实现效果显著提升。为此我们设计并实现了切换卷积神经网络架构以利用图像中人群密度变化的信息从而提高预测精度和定位准确性基于训练数据建立的CNN模型在人群计数预测质量上有显著提升的基础上我们将人群场景中的网格补丁进行延展并成功地将单个补丁映射到独立的CNN回归器上这些独立设计的CNN回归器均具备独特的感知域通过训练学习机制我们成功实现了将特定补丁传递至最适合其特征的回归器这一过程最终在多个主流人群计数数据集上进行了全面验证证明了我们所提出的切换卷积神经网络相比现有最先进方法具有更好的性能表现同时我们还提供了一种直观易懂的空间可解释表示方法这种表示方法能够清晰展示不同网格区域对应的人群数量变化情况并有效指导后续优化工作通过这种方法我们可以观察到根据不同密度水平对图像补丁进行智能分类从而实现更精准的人群数量预测
1. Introduction
这种人口统计学方法在地缘政治及公共议题研究中扮演着关键角色。这些公共活动(烛光守夜、民主抗议、宗教集会及总统集会)中的常见现象是大规模群众聚会。市政规划人员依赖 crowd estimation 来规范接入点,并据此制定灾难应急方案。这种方法的核心要素是人口规模与密度。
根据研究原理,在人群计数中核心概念即为密度与面积的乘积关系:然而这一数值并非恒定不变,在实际应用场景中会随着环境变化而产生显著差异:具体而言,在特定区域人群呈现高度聚集状态而在另一些区域则呈现分散分布特征:以上海科技数据集[19]为例其典型的静态人群场景如图1所示:在这些典型的场景中我们能够观察到极端密集的人群由于人与背景元素(如城市建筑立面)在视觉呈现上具有高度相似性从而进一步加剧了复杂性:值得注意的是在不同场景下采用不同摄像机视角所获得的透视效果会发生显著变化这直接导致被观察者感知到的人体尺寸会发生较大的波动

在计算机视觉领域中,人群计数经历了从基于HOG( Histogram of Oriented Gradients)特征提取技术用于头部检测[6];随后随着深度学习的发展,在CNN回归模型方面取得了显著进展
Switch-CNN基于图像中人群密度的差异来增强预测人群数量的质量和定位。独立的CNN人群密度回归器是在特定的人群场景下从网格划分出的采样区域上进行训练。我们采用了独立的CNN回归器,并使它们能够适应不同规模的人群特征。这种设计确保了每个CNN回归器通过学习适应特定规模的人群特征而提升了性能表现。这种架构使得Switch-CNN在面对典型人群场景中的大范围人像观察时展现出良好的鲁棒性与稳定性。具体而言,在一个特定的人群场景下被选中的CNN回归器是那些在该场景下的表现最优者。切换分类器通过与多个CNN回归器交替训练的方式实现了对单个图像块准确分配到最合适的回归子网络功能。开关组件与各子网络协同工作,在联合训练过程中提升了系统在复杂多角度空间维度下的学习能力与泛化性能。这种方法不仅提高了模型对不同视角变化的感受力而且显著增强了其在复杂背景下的鲁棒性与稳定性
一种新型的通用卷积神经网络架构Switch-CNN通过端到端训练的方法实现了对人群场景中人群密度的有效预测。
基于人群场景构建独立的人群补丁并结合CNN回归器能够有效降低计数误差的同时结合场景内部密度变化来提升密度定位精度。
在包括多个权威人群统计基准的数据集中我们展示了最佳性能的表现。
2. Ralated Work
在计算机视觉领域中,人群计数已被广泛采用作为解决方法之一。基于头部检测的方法已取得显著进展[17,16,14];研究者们采用了循环神经网络架构专门针对人群场景中的头部识别问题,并通过结合运动信息与外观特征优化算法性能[13]。然而,在处理群体间高度遮挡的密集 crowd 情况时这一技术仍显不足
针对视频中的人群计数问题,在文献[3]中提出了基于Tomasi-Kanade等图像特征作为运动聚类框架的方法。通过KLT跟踪器将视频数据转换为一组轨迹数据,并结合文献[10]的技术手段进一步优化了算法效果。通过调节时间轴和空间轴上的信号特征来减少轨迹断裂的可能性。由于这种方法缺乏时间维度的信息支持,在单个图像场景下难以实现有效的应用。
早期的研究在处理静态图像时采用手工特征的组合方法。具体而言,在[6]中将HOG检测、兴趣点计数以及傅里叶变换相结合形成了这一方法。这些基于局部特征的传统弱表示性能相较于现代深度表示方法仍具有优势。在后续研究中(如[18]),他们提出了利用CNN模型对人群密度图进行回归的方法。通过从与测试图像相似的训练数据集中检索图像,并结合密度分布与视角信息来计算相似性度量。检索到的目标用于针对特定场景进行微调,并预测最终的人群密度图。然而该模型存在适用性受限的问题:它要求针对每个测试场景单独进行微调,并依赖于火车和测试序列的空间透视关系这一前提条件;而这些参数并非预先可得,在实际应用中存在局限性。随后,在[9]研究团队提出了基于多尺度CNN架构的人群计数方法;他们采用了定制化的CNN网络结构,并针对不同尺寸分别进行了训练;完全连接层则用于整合各尺度下的训练结果并完成密度图预测回归任务;尽管这种方法提高了对不同分辨率层次的人群分布感知能力(如通过调整金字塔层级的数量来优化计数结果),但其计数性能仍然受到不同分辨率层级的数量变化这一关键因素的影响
该研究通过多列卷积神经网络(CNN)对不同CNN分支提取的特征进行后期融合。该方法在文献[19]中提出了一种浅层CNN架构设计,在此架构下通过调整各层的空间接受域来捕捉人群场景中的规模变化与视角变换。研究团队在实验中采用VGG-16网络作为基础模型,并通过迁移学习方法将其应用于人群密度估计任务。VGG-16网络采用了通道扩张机制,在此基础上还结合了具有不同空间接受域和平移模块的设计。两种模型均采用加权聚合策略,在此过程中通过逐点融合各通道特征图的最大值来生成最终的人群密度估计结果。这种全局加权平均策略可能无法充分捕捉局部区域内的密度变化特性;为此我们在此基础上引入了基于补丁划分的新架构模块Switch CNN
3. Our Approach
该研究提出的特定类型的卷积神经网络架构能够提取高质量的图像特征,并将其转化为适合分析的人群数据形式。这类卷积架构能够通过回归模型进行计算出人群数量与密度分布。研究者采用了多通道卷积神经网络架构以及特征融合技术来精确预测人群密度分布。针对传统单通道卷积神经网络架构的局限性,在现有基础之上优化了整体算法设计并提升了模型性能指标。为了更好地适应复杂的人群运动场景中的动态变化特性,该方法还特别关注于捕捉并分析密集人群中规模的极端变化。
本文提出了一种更换CNN架构的方法(switch - CNN),该方法旨在从人群场景中的网格中的补片实现到基于切换分类器的独立CNN回归器。在多列卷积神经网络中(MLP),这些独立的设计成特定区域和视场范围内的CNN回归器被选作具有增强建模大规模变化能力的基础结构。每个特定的人群场景补片都被训练成一个特定的人群场景下的最佳匹配对象。通过与多个独立设计的目标分类器交替训练的方式(MLP),系统能够准确地将一个patch映射到相应的目标分类器上。该模型的核心优势在于能够有效捕捉局部密度变化(1)以及(2)实现基于全局加权平均的技术。
3.1 Switch-CNN
本研究提出了一种架构Switch-CNN(switched Convolutional Neural Network),该架构由三个不同架构的CNN回归器与一个开关分类器构成,并用于从输入图像中选择最适合各区域的人群密度模型。图2展示了Switch-CNN的整体架构设计。我们将输入图像划分为9个互不重叠的小块区域,在这样的图像分割方案下,默认情况下假设在一个给定的小块区域中人群密度、外观等特征具有一致性。对于每一个小块区域作为独立输入输入到网络中,在最适合该小块区域属性的基础上分别训练并运行三个不同的CNN回归器(R1至R3),以分别预测各个小块区域内的人群密度特征以及背景信息等关键属性指标。其中R1采用了较大尺寸的初始滤镜(9×9)以捕捉场景中的高级抽象特征(如人脸、城市立面等),而R2和R3则采用了较小尺寸初始滤镜(7×7及5×5)以在较低尺度上捕捉人群分布信息,并能有效识别抽象斑点状的人群分布特征

该补丁经由开关成功传输至回归器。该系统架构由两个主要组成部分构成:交换机分类器与本地处理单元组(Switch-CNN)。在工作流程中,开关分类器通过推理确定待处理数据样本应被转移至的目标回归节点(regressor)。随后,在本地处理单元组中执行特征提取与判别过程,并将结果返回主处理节点进行最终判断与决策操作。例如,在图2所示的例子中,请注意开关分类器将重点标注的补丁发送给了目标区域R3。这些区域显示出显著的人口密度特征:它们具有比其他区域更高的人口密度值,并且其分布范围也更为集中。值得注意的是,在本地处理单元组中的卷积操作被设计用于提取关键特征信息,并结合全局平均池化(GAP)技术来去除空间维度的影响因素; GAP之后仅保留了高度压缩的空间信息特征后沿连接到较小规模全连接层上,并附加了一个三类 softmax 分类模块对应于三个不同的回归子网络架构设计方案(Switch-CNN)。
Ground Truth:对人群图像的人头中心进行点注释。我们通过使用高斯核进行归一化处理来生成密度图,并将合成后的密度地图相加以获得人群数量估计值。这种方法将预测精确点位的任务转化为预测一个较为粗略的位置坐标。所采用的密度图中的高斯分布参数是固定的。然而,在人群密度变化较大的情况下(如密集区域与稀疏区域),由固定扩散高斯分布生成的密度图可能无法满足需求。为此我们引入了几何自适应核[19]方法来进行处理:该方法根据每个样本k个最近邻的人头标注平均距离动态调整高斯分布参数设置(如扩散半径)。由于透视图在数据预处理方面存在局限性(难以生成且非通用性),因此我们选择基于空间距离度量的方法来替代:通过计算人头间的欧氏距离来评估空间关系强度。这种方法的优势在于能够较好地平衡不同场景下的建模需求:即在人头密集区域(如 crowd density high)下保持较小的模糊程度,在人头稀疏区域(如 crowd density low)下则能维持较大的模糊程度以提高模型鲁棒性)。实验结果表明:采用几何自适应核方法所构建的人群场景间的密度变化较大度量集能够有效提升模型性能;而固定扩散高斯方法则更适合于人头稀疏场景的数据集训练情况
该过程主要包括三个阶段:前期训练、差异化训练步骤以及协同训练的具体实施流程。其中,在第3.2至第3.5节中详细阐述了协同训练的过程。

3.2. Pretraining
三个独立设计的CNN模型r1至r3均经过预先训练以便生成密度图。该预训练过程能够有效提取基础特征并显著提升后续微调效果。每个独立设计的CNN模型旨在最小化预测密度与真实分布之间的L2损失函数值。其中DXi(·;Θ)表示第i个CNN模型在输入图像Xi时的输出结果,并且其参数集为Θ

其中N表示训练样本的数量,DxiGT代表图像Xi的真实密度图。通过采用反向传播配合随机梯度下降算法优化卷积神经网络(CNN)来最小化L2损失函数。其中L2损失函数充当回归目标估计器,在一定程度上替代了计数与真实计数之间的差异计算。为了使回归参数Rk达到最佳状态,我们对其进行预训练学习,直至验证集准确率稳定收敛。
3.3. Differential Training
该CNN回归器R1-3通过使用全部训练数据实现了预训练阶段。不同在于其网络结构中存在固有的差异性特征——包括接收域与有效视界这两个关键要素.尽管我们在优化基于l2损失函数的方法来提升CNN回归器的表现时,在这一过程中考虑到误分类问题有助于提高人群计数的整体准确性.由此可知,在评估模型效果时我们采用了计算预测结果与真实值之间的数量误差作为衡量指标.令第i个图像的第k个回归因子估计的计数为:

由ground truth推断出的引用计数为:

第i个样本用Rk求值的计数误差为:

预测计数与真实计数之间的绝对差异数值。具备特定人群属性特征的补丁由于其内部网络架构设计上具有互补性,在计数准确性方面表现更为优异。例如基于大接受域设计的CNN模型能够有效识别复杂的抽象概念如背景元素与面部特征等高阶抽象信息。为了突出不同网络间的差异特征我们在此基础上提出了一种新型训练方法(如图1所示)。这种新型训练方法的核心思想是对给定训练人群场景patch实施最小化误差反向传播过程其中关键步骤是对每一个待训练补丁i选择一个最优回归因子lbest i使得对应的误差度量值ECi(lbest i)达到最小值这一过程本质上等价于贪心地选取能够最准确预测目标变量k个最优回归器中的每一个。具体而言我们定义所选最优回归器lbest i对应的目标标签为:

第i个样本的计数误差为:

该机制促使回归器rk倾向于选择具备特定patch特征的训练数据补丁集合以实现损失最小化。在独立回归器Rkis采用l2损失的情况下,默认情况下会选择基于计数误差原则下的CNN作为倒传播模型。通过微分训练方法,在一定程度上降低了训练图像上的平均绝对计数误差(MAE)。针对N张图像而言:

综合以上分析可知,
这可以被视为每一个样本被准确无误地传送到相应的CNN所达到的理想化最小计数误差。
然而,在实际应用中,
由于开关分类器性能欠佳,
可能无法完全实现这种理论上的完美精确度。
综合以上分析可知,
差分训练技术生成了三组互不重叠的训练补丁集合,
每个网络分别在其对应的组别内进行了精细微调。
通过差异性训练方法计算出回归变量Rkare,
直至验证集上的准确率达到了稳定的水平。
3.4. Switch Training
通过差分解析确定补丁空间的多切分区域后, 构建一个切换机制用于将检测到的补丁实例分配至目标回归器Rk进行后续处理。在人群场景下识别斑块的空间分布特征较为复杂, 因此我们需要一种深度学习模型来准确识别这些斑块组。为了提高模型性能, 在本研究中, 我们选择VGG16网络架构作为切换模块, 进行三分类任务。在差异学习过程中, 我们利用生成的多切分标记对切换模块进行优化。考虑到不同人群场景的特点, 训练数据中的补丁分布可能出现类别不平衡现象。根据所分析的人群场景属性, 大部分检测到的补丁实例会被分配至同一目标回归器进行处理。针对开关切换模块可能出现的类别不平衡问题, 为了平衡差异学习过程中的样本分布, 我们对采集到的数据标签进行了均衡化处理。这样可以确保每个切换模块都有足够的样本用于准确识别和分类。
3.5. Coupled Training
在CNN回归器R1至R3上实施差异训练的过程中, 为给定的人群场景patch选择最优回归器以最小化预测计数成为主要目标。然而, 训练出的开关效果并不理想, 并且流形学习分割斑块的空间结构较为复杂, 这给后续优化带来了挑战。为了缓解开关不准确性和任务固有复杂性对系统性能的影响, 我们采用了交替训练开关与回归器的方法, 使补丁分类器与cnn回归器共同适应这一过程(如图1所示)。在这一阶段, 开关分类器首先基于差分训练中推断出的人群场景多切开标签进行训练(如图1所示)。随后, 三个CNN回归器被设计成与开关分类器协同适应(如图1所示)。我们将强制转换与回归器R1−3协同适应的这一阶段称为转换差分训练阶段(Algorithm 1中绿色标注)。在此阶段中, 使用切换传递的人群场景补丁对单个CNN回归器进行特化训练(Algorithm 1中红色标注)。对于给定的训练人群场景patch Xi, 开关在Xi处正向传播以推断相应的回归因子Rk选择权值参数θkis的变化过程如下: 开关层将Xi传递给特定的cnn回归器Rk, 并基于方程1定义的损失函数进行反向传播更新θkis参数值(Algorithm 1中蓝色标注)。这种联合优化机制旨在实现一个完整的训练周期(Algorithm 1中标注为绿色)。在下一个周期开始前, 根据公式3重新计算交换分类器的训练标签并重新启动整个交替转换流程(Algorithm 2)。每个epoch迭代执行这一轮次的操作直至验证集上的精度趋于稳定(Algorithm 2)。
4. Experiments
4.1. Testing
本研究在四个典型的人口密度数据集上系统性地评估了所提出的switch-CNN架构的性能表现。在测试阶段中,在对图像补丁进行处理后,在测试阶段中,在对图像补丁进行处理后,在测试阶段中,在对图像补丁进行处理后,在测试阶段中,在对图像补丁进行处理后
本研究采用平均绝对误差(MAE)与平均平方误差(MSE)两个指标来进行模型性能评估,并将其与当前最先进的群像计数方法进行对比。在一个包含N张图像的测试序列中,MAE的具体计算方式如下所示:

其中Ciis为被评估模型预测的人群数,CGT i为人类标注注释的人群数。MAE是测试序列中预测人群计数准确性的一个指标。MSE是MAE的一个度量补充,表明了预测计数的鲁棒性。对于一个测试序列,MSE的定义如下:

4.2. ShanghaiTech dataset
在由1198张标注图像构成的上海科技人群计数数据集[19]中展开了系统性实验研究。本研究将数据样本划分为A组与B组两大类,在A组中收集了来自互联网密集人群场景的数据样本,在B组则聚焦于城市地面街道上的相对稀疏人群场景特征。基于作者提供的两组训练数据开展验证工作,在两个子数据集上分别训练了Switch-CNN模型[1]。其中Ground truth采用了几何自适应核方法构建,并指出由于透视效果的不同导致了场景内人群密度的巨大差异(第3.1节详细说明了生成原理)。该模型展现了完美的切换性能(精确率达到100%),平均绝对误差达到51.4分。然而,在A组中的切换精度仅为73.2%,而B组则达到了76.3%,整体平均绝对误差显著上升。
表1展示了Switch-CNN在MAE与MSE指标上的优势,在a区的数据集中其MAE较MCNN[19]提升了19.8个单位,在b区则增加了4.8个单位。同时,在MSE度量方面其表现同样超越了现有所有方法,并且这表明,在所评估的数据集中其预测结果的方差显著低于MCNNSwitchCNN算法通过提升预测准确性表现出更强的稳定性

本研究展示了基于ShanghaiTech数据集进行的Switch-CNN样本测试,并在图3中给出了ground truth对比。实验结果表明, Switch-CNN算法生成的空间密度可视化结果与实际人群分布具有高度相关性, 其定位能力得到了验证
4.3. UCF CC 50 dataset
UCF CC 50[6]是一个包含50幅图像的人群场景标注数据集。该数据集在人群计数方面的表现呈现显著差异性,在94至4543个计数值之间波动较大。相较于其他小尺寸场景数据集的特点而言,UCF CC 50因其人群计数结果的巨大方差被认为具有很高的挑战性。我们借鉴其他先进模型的设计思路[18,2,9,19]的同时,在实验验证阶段采用了五折交叉验证的方法来评估SwitchCNN在该数据集上的性能表现。表2详细比较了SwitchCNN与其他现有方法在多个指标上的表现结果:其中MAE指标显示SwitchCNN的表现优于所有其他方法,并较Hydra2s[9]提升了15.7分点;同时MSE指标也显示出 SwitchCNN 的竞争力水平较高;此外 Switch-CNN 在准确度方面达到了54.3%的水平表现。值得注意的是由于训练样本数量有限以及人群密度变化较大的原因 SwitchCNN 在切换精度方面的表现略显不足 这一局限性限制了其对人群场景斑块空间划分精细度的学习能力

4.4. The UCSD dataset
UCSD数据集包含了由单一场景构成的一个包含2000帧的连续帧序列。每个场景的特点是人群稀疏分布,在每帧中的人群数量范围为11人至46人不等。为了便于分析,在数据集中为每个场景指定了一个感兴趣区域(ROI)。我们遵循文献[4]中的方法对测试集进行划分,在2000帧中选择第601到1400帧用于训练阶段,并剩余的帧用于验证过程。在提供感兴趣区域(ROI)的情况下,我们按照文献[19]的方法对Switch-CNN模型进行优化设计,在训练过程中仅考虑ROI内部区域的数据进行反向传播训练。由于人群分布较为稀疏,在生成真实密度分布图(ground truth density map)时采用了固定宽度的扩散高斯函数来进行建模训练 Switch-CNN网络架构。在测试阶段,则仅针对ROI区域计算模型性能指标 MAE(Mean Average Error),并将其与其他方法进行了对比评估以验证 Switch-CNN的有效性与竞争力[3]。表3展示了 Switch-CNN 在不同方法上的 MAE 和 MSE 指标表现情况:相对于其他先进算法而言 Switch-CNN 的平均误差值为 1.62%,表明其在人群计数任务中具有较强的性能优势;此外通过将转换补丁 r1 到 r3 的回归器精度评估达到 60.9%,进一步验证了该方法的有效性与适用性;然而需要注意的是该数据集的一个显著特点是在单一场景下的人群密度呈现较低的变化性特征这使得 Switch-CNN 在利用场景内人群密度变化带来的性能提升方面受到了一定的限制

4.5. The WorldExpo’10 dataset
包含
5. Analysis
5.1. Effect of number of regressors on Switch-CNN
差异训练通过分析个体回归变量间结构变化实现对多切分学习效果的研究

5.2. Switch Multichotomy Characteristics
Switch-CNN的核心理念在于将训练出的小块进行互不相连的一组来进行独立式CNN回归器的设计,并最终实现整体计数精度的最大化效果。通过差值训练的方法自动生成人群场景中的斑块空间划分。我们深入分析了斑块内部结构以揭示学习到的不同视角下斑块属性(如人群数量、密度等)之间的联系。然而由于透视图无法获取导致实际人口密度难以准确计算这一问题存在。为此我们推测两人之间的平均头部间距可作为衡量 crowd density 的重要指标在高密度区域中由于人与人之间距离极近因而 crowd density 较高而在稀疏区域由于个体间间隔较大 average head spacing 会显著增大从而成为 crowd density 的有效替代指标这种基于头部间距的距离测量方法不仅能够适应不同尺度的变化还具有较强的稳定性

为了分析斑块在空间上的多切性,我们计算了上海科技测试集A部分中每个斑块的平均头间距离。对于每个头部注释,计算其到10个最近邻居的平均距离。这些距离在整个斑块上取平均值,表示斑块的密度。我们在图4中绘制了这些距离的直方图,并根据用于推断补丁数量的回归器rkor将补丁按颜色分组。图4观察到基于人群密度的patch空间的分离。R1是9×9中接受场最大的,它评价低人群密度(对应较大的平均头间距离)的斑块。一个有趣的观察是,来自人群场景中没有人的斑块(图4中平均头间距离为零的斑块)被开关中继到R1。我们认为,没有人的斑块被传递到r1,因为它有一个很大的接受域,有助于捕捉诸如城市立面和树叶等斑块的背景属性。图5显示了一些转送到每个CNN回归器R1到R3的样例补丁。从CNN回归因子R1到R3,斑块中的人群密度逐渐增加。
5.3. Attribute Clustering Vs Differential Training
在第5.2节中我们观察到差分训练方法将训练集中的补丁样本按照密度特征进行了大致的分类处理形成了一个多分类系统我们进一步探讨了人工聚类对这一过程的影响基于样本的特征属性如人口数量或密度等来进行分析在此过程中我们采用了补丁计数作为主要依据来进行聚类分析将所有补丁按照计数分成三组这样可以使三个子网络R1−3在训练数据分布上更加均衡其中R1网络主要负责接受低人口密度区域的样本特征而R2网络则专注于中等人口密度区域的样本学习高人口密度区域的样本则被分配给R3网络在整个实验过程中我们采用了斑块间的平均头间距离作为衡量相似程度的标准来进行模型优化在此基础上我们重复之前的实验发现当平均头间距离较高时这些样本会被优先分配给R1网络而那些头间距离相对较小的样本则会被分配给其他两个子网络以实现整体性能提升

表6详细列出了两种聚类方法在平均误差绝对值(MAE)指标上的表现。通过基于人群计数以及平均头间距离的聚类分析可以看出,在仅依赖平均头间距离进行聚类时(即表6所示), Switch-CNN依然表现出色。进一步比较表明,在仅依赖平均头间距离进行聚类时(即表6所示), Switch-CNN依然表现出色。这一实证结果进一步证实了 Switch-CNN在其所处理的数据集中能够有效提取与人群场景中平均头间距离高度相关的特征信息。
6. Conclusion
本文中提出了一种切换卷积神经网络的方法。这种架构基于图像内人群密度的变化,并旨在提升预测人群计数的准确性和定位能力。该架构利用了多个CNN回归器的内在结构和功能差异,并通过采用不同的训练机制来应对大规模数据和视角变化的问题。经过多次实验验证,在主要数据集上表现出先进的性能水平;此外,在分析相关于群体密度的因素后发现可以将群体斑块分类
