Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning【阅读笔记】
目录
一、摘要
三、网络结构
四、实验
总结
一、摘要
论文开发出一种创新的元学习检测器框架命名为Meta-DETR它不再依赖区域预测而是通过统一与互补的方式实现了图像级别的元学习目标定位与分类任务
二、引言
受端到端目标检测框架DETR的启发,提出来Meta-DETR,不进行区域预测。

论文主要贡献:
开发基于Meta-DETR的图像级元学习框架实现了对目标定位与分类功能的整合,并无需进行区域预测过程
2、设计语义对齐机制(SAM ),提高元学习的泛化能力。
三、网络结构

1、Query Encoding Branch (QEB)
包含特征提取器和变换编码器
2、Support Encoding Branch (SEB)
SEB和QEB共享全部可学习参数。与QEB不同的是SEB的目标是提取主要与支撑图像中某些对象实例相关的类别码。因此引入了类别的编码提取器(CCE)来去除支撑图像中的无关信息。CCE自身没有可学习参数。它通过以下三个步骤推导支撑类别的编码:
第一步骤是从transformer encoder恢复特征的空间维度;
第二步骤使用RoIAlign定位支撑的对象实例;
第三步骤执行全局平均池化,
当一个类别对应多个支撑图像时,
它将所有类别的编码平均为最终该类别的编码。
3、Decoding Branch (DB)
基于类别的查询图像特征输入至DB系统中,在后续处理阶段首先将这些特征聚合成类别特异性特征;接着利用不受类别影响的transformer decoder预测各支持类别的检测结果
4、Semantic Alignment Mechanism (SAM)
元学习的主要驱动力是为了使模型能够泛化至不同类别而非仅针对单一领域。尽管现代元学习方法通常采用较深的架构设计以增强其能力特性(ability characteristics),但这种现象往往会导致性能欠佳。为此我们提出了一种(SAM)机制通过对其输入与输出特征语义进行对齐处理从而有效防止其过分依赖不需要的具体分类特征。

四、实验
在VOC/COC 数据集上进行了对比、消融实验,验证了框架的检测精度。

总结
论文开发了一种新的元学习模型,在图像层次上构建了一个低样本目标检测系统。该系统通过摒弃传统方法中存在的局限性区域预测问题,并充分地利用了定位与分类间的协同效应,成功解决了现有技术体系中的共性缺陷。经过大量实证研究与测试分析表明,在不依赖复杂辅助工具的前提下(即无花里 Smith 的情况下),该算法的表现显著优于现有的所有相关技术。
本人小白一个,如有错误希望多多包涵。
