[论文笔记] Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark 阅读笔记
This paper explores the challenges and techniques involved in real-world prohibited item detection using X-ray technology. Reading notes: This paper discusses the challenges and methods in real-world prohibited item detection using X-ray technology.
-
- 系统性分析:基于现实场景的禁止物品检测方法:大规模X射线基准(ICCV 2021)
-
- 1 Abstract
- 2 Introduction
- 3 Related Work
- 4 PIDray Dataset
- 5 Selective Channel Attention Network
-
- Network Architecture
-
Selective Channel Attention Mechanism
-
Selective Spatial Attention Module
-
Dependency Refinement Block
-
实验结果
-
- Network Architecture
针对Real-world for banned item detection: a comprehensive X-ray benchmark dataset for ICCV 2021
scholarly work: Access the research paper via the link: scholarly work.
source code: Obtain the source code from the repository: code repository.
1 摘要
- 问题 :
- within-class variance, class imbalance, occlusion
- Some items may be deliberately hidden, implying significant occlusion
本方案:
提出一种新数据集 PIDray。
提出了基线检测器 SDANet(selective dense attention network),并包含两个核心模块:
稠密注意力模块(由 spatial 和 attention-wise 稠密注意力组成,用于学习特征间的差异性)
依赖关系精炼模块(用于发现多尺度特征间的依赖关系)
2 引言
数据集示例

现有 x 光数据集忽略的问题 :
- 类别单一且数量有限
- 在不同安全等级下某些情况下可能需要实施实例分割措施
- 这些特意隐藏的物品

3 相关工作

- GDXray :包含三种违禁物品:枪、手里剑和剃须刀片。由于几乎没有复杂的背景和重叠,因此很容易识别或检测该数据集中的对象
- Dbf6、Dbf3和OPIXray :包含复杂的背景和重叠数据,但图像的数量和违禁物品的数量仍然不足
- Liu et al. :构建了一个包含 32253 张 X 射线图像的数据集,其中 12683 张图像包含违禁物品。该数据集包含 6 种类型的物品,但没有一种是严格禁止的,例如手机、雨伞、电脑和钥匙
- SIXray :包含1,059,231张带有图像级别注释的X射线图像,然而,在数据集中包含违禁物品的图片较少(即只有0.84%)。此外,该数据集包含6个类别的违禁物品,但实际上只有5个类别被标注
- PIDray :本文包含超过47000张带有违禁物品的图像和12个带有像素级注释的违禁物品类别
4 PIDray 数据集
- 使用 3 台来自不同制造商的安检机来收集 X 射线数据


该系统将数据划分为 Easy、Hard 和 Hidden 三个子集:易模式仅包含单一禁止物品;硬模式则包含多种违禁物品;而隐模式则涉及故意隐藏的违禁物品

5 Selective Dense Attention Network
网络架构

在FPN之后,网络在两个关键步骤中充分提取了多尺度特征图中的信息;这两个selective attention modules被用来融合信息来自于不同的层级:一个是Selective Channel-wise Attention模块(SCA),另一个是Selective Spatial Attention模块(SSA);通过依赖关系精炼模块强化融合特征
- 这些操作是在每一层的 feature maps上完成的。在将原始 map 与增强后的 map 结合后,通过 RPN 对 multi-scale representations 进行最终预测。
- 为了构建 SCA 和 SSA 模块,随后通过 element-wise 的操作对不同层级特征进行融合。特别地,在将多级特征 \{X_1, ..., X_n\} 传递至两个模块之前,请确保这些特征与第i层具有相同的维度(如图所示)。
Selective Channel-wise Attention

通过引入全局平均池化(GAP)层来提取基于基础特征 \hat X 的全局通道信息,并随后利用全连接(FC)层降低输出通道数量(例如,从256降到128)。为了实现对不同特征图在 channel-wise 上的关注度分配,在此基础上动态引入更多的 FC 层并配合 softmax 操作以获取注意力权重 \{ω^c_i\}^n_{i=1}。最终将各层注意力权重与原始特征图进行加权求和以生成综合后的特征表示 V_C= ∑^n_{i=1} ω^c_i X_i。
Selective Spatial Attention

基于特征图 \hat{X} 的应用平均池化与最大池化操作以生成两个独特的空间上下文表征。随后将这两种表征进行融合,并在深度学习模型中添加多个卷积层并结合每层的 softmax 操作以获取空间注意力权重。最终通过这些权重系数构建出空间注意力加权后的特征图 V_S(x, y) = \sum_{i=1}^{n} \omega_s^i(x, y)X_i(x, y) ,其中 (x, y) 表示特征图中对应像素的位置
Dependency Refinement
在提取包含通道-wise和空域注意机制的融合特征后,在此基础上通过引入Dependency Refinement (DR)模块来生成更具区分度的空间感知特征图。Non-local机制能够有效地捕捉长距离依赖关系,并显著提升了模型的整体准确率。参考图5(c)可以看出,在此过程中首先整合全局上下文信息;接着构建各通道间的关联关系;最后利用融合模块将整合后的全局信息分配到各个位置上
实验结果
PIDray 数据集结果

消融学习

和 Cascade Mask R-cnn 对比

注意力模型对比

COCO 和 VOC 的结果

