TransReID: Transformer-based Object Re-Identification
发布时间
阅读量:
阅读量
用于重识别的 pure transformer 模型 github链接
文章目录
摘要
文章内容
总结
摘要
提取鲁棒的特征对于reid是十分重要的。卷积神经网络一次只能处理一个局部相邻的区域,并且使用池化、基于步长的卷积会造成信息的丢失。
作者提出了完全基于transformer结构的reid模型叫做 TransReID。
作者设计两个novel的module:(1)jigsaw patch module (JPM)(2)side information embeddings (SIE)
在行人和车辆上都取得了sota的效果。
文章内容
使用 grad-cam 可视化
从可视化的效果来看,使用transformer能够关注到更多的人体特征
输出特征图的可视化
使用transformer保留了书包的细节特征,这是区分这两个难样本的重要细节

作者发现的问题
- 对于ReID来讲,利用全局视野内具有丰富结构化的object模式很重要,CNN只能关注小范围的区域
- 最近使用基于注意力方式的模型只是在深层网络中嵌入注意力,而并没有解决原则性的问题
- 细粒度的细节特征也是十分重要的,而下采样会降低输出特征图的空间分辨率
使用transformer的优点
- multi-head 自注意力机制可以驱动模型关注人体的不同部位
- 不使用池化避免了有效信息的丢失
本文的contribution
- 第一次提出全 transformer 的 reid 模型并取得具有竞争力的效果
- 设计 JPM 模块,包括 shift 和 patch shuffle 操作,有助于保持模型的扰动不变性和提取特征的鲁棒性
- 提出 SIE 模块,使用可学习的 embeddings 编码辅助信息, 有效减轻了所学特征的偏差
- 最终的 framework 在车辆、行人 reid 都 sota
Pure transformer in CV
- IPT :通过大规模的预训练利用transformer
- ViT: 使用 image patch 序列的 pure transformer
- DeiT:使用知识蒸馏解决了需要使用大规模预训练数据的问题
Methodology

本文方法的两个主要步骤:提取特征、监督学习。
SIE模块
SIE 使用其他的辅助信息,比如相机的编号或者视角。SIE被嵌入到编码器部分
framework

总结
作者认为 transformer 在 ReID 领域具有很大的潜力,未来能够提取更加鲁棒的特征和更少的计算量。
全部评论 (0)
还没有任何评论哟~

