Advertisement

TransReID: Transformer-based Object Re-Identification

阅读量:

用于重识别的 pure transformer 模型 github链接

文章目录

摘要

文章内容

总结


摘要

提取鲁棒的特征对于reid是十分重要的。卷积神经网络一次只能处理一个局部相邻的区域,并且使用池化、基于步长的卷积会造成信息的丢失。

作者提出了完全基于transformer结构的reid模型叫做 TransReID。

作者设计两个novel的module:(1)jigsaw patch module (JPM)(2)side information embeddings (SIE)

在行人和车辆上都取得了sota的效果。


文章内容

使用 grad-cam 可视化

从可视化的效果来看,使用transformer能够关注到更多的人体特征


输出特征图的可视化

使用transformer保留了书包的细节特征,这是区分这两个难样本的重要细节


作者发现的问题

  1. 对于ReID来讲,利用全局视野内具有丰富结构化的object模式很重要,CNN只能关注小范围的区域
  2. 最近使用基于注意力方式的模型只是在深层网络中嵌入注意力,而并没有解决原则性的问题
  3. 细粒度的细节特征也是十分重要的,而下采样会降低输出特征图的空间分辨率

使用transformer的优点

  1. multi-head 自注意力机制可以驱动模型关注人体的不同部位
  2. 不使用池化避免了有效信息的丢失

本文的contribution

  1. 第一次提出全 transformer 的 reid 模型并取得具有竞争力的效果
  2. 设计 JPM 模块,包括 shift 和 patch shuffle 操作,有助于保持模型的扰动不变性和提取特征的鲁棒性
  3. 提出 SIE 模块,使用可学习的 embeddings 编码辅助信息, 有效减轻了所学特征的偏差
  4. 最终的 framework 在车辆、行人 reid 都 sota

Pure transformer in CV

  1. IPT :通过大规模的预训练利用transformer
  2. ViT: 使用 image patch 序列的 pure transformer
  3. DeiT:使用知识蒸馏解决了需要使用大规模预训练数据的问题

Methodology

本文方法的两个主要步骤:提取特征、监督学习。

SIE模块

SIE 使用其他的辅助信息,比如相机的编号或者视角。SIE被嵌入到编码器部分

framework


总结

作者认为 transformer 在 ReID 领域具有很大的潜力,未来能够提取更加鲁棒的特征和更少的计算量。

全部评论 (0)

还没有任何评论哟~