Advertisement

RGBT Tracking论文阅读:Efficient RGB-T Tracking via Cross-Modality Distillation(CVPR2023)

阅读量:

👉 针对问题与解决方法:

针对问题:现有的RGBT算法采用复杂的融合策略需要大量的参数;但是简洁的RGBT跟踪器在计算上可能高效但是特征提取能力会削弱,性能会退化。

解决方法:提出了一种跨模态蒸馏框架,以达到即高效又不降低精度的目的。

💡 亮点

  1. 教师-学生模型,知识蒸馏应用于RGBT跟踪
  2. 从降低模型参数量和计算复杂性入手

➡️ 参考文章

RGB-T tracking by modality difference reduction and feature re-selection

Learning discriminative model prediction for tracking.

Distilling Knowledge via Knowledge Review

✅ 总结

为了减少大模型和简洁模型的性能差距,提出了一个新的教师-学生的知识蒸馏训练框架。

SCFD:模态共有特征和模态特定特征从教师模型传递到学生模型——增强了单模态特征的表示

MPSD:学生模型可以自适应的组合各种简单融合策略生成的多个融合特征,以更彻底地从多模态数据中探索互补信息

HFRD:缓解目标状态估计阶段数据不平衡的问题,提高对干扰物的辨别能力

达到先进性能,减少了参数量和计算复杂性

限制 :对于提高目标状态估计部分的效率没有进行工作

贡献

  • 提出了一个特定-公共特征蒸馏模块 以将公共模态信息和模态特定信息从深层双流网络转为浅层双流网络
  • 提出了一个多路选择蒸馏模块 以指示一个简单的融合模块通过使用多路径从一个精心设计的融合机制中学习更多准确的多模态信息
    在这里插入图片描述

Method

在这里插入图片描述

Teacher and Student Model

teacher model * 输入:一对RGBT图片对
* 特征提取:双流网络
* 复杂的特征融合模块
* 融合后的特征被送到目标状态估计模块中,获得最终的跟踪结果

student model * 单流特征提取
* 几个高效的多模态融合模块

特征提取
在这里插入图片描述

复制代码
* Teacher——两个特征提取器ResNet50
* Student——一个特征提取器ResNet18
* 使用block3,4的特征进行回归,使用block4的特征进行分类

多模态特征融合

Teacher——采用模态差分补偿(MDC)模块和特征重新选择(FRS)模块 进行多模态特征融合
在这里插入图片描述

Student——采用MPSD模块

分类和回归

复制代码
* 和DiMP的一致

three knowledge distillation modules

SCFD(Specific-common Feature Distillation)
在这里插入图片描述

复制代码
1. 将模态特定信息和模态共享信息从双流深层网络转为单流浅层网络
2. 教师模型强大的双流特征提取网络把模态特定信息和模态共享信息传输到学生模型的单流网络中,以增强对单峰特征的表示能力  

(1) 首先对教师模型中的单峰RGB特征和TIR特征进行跨模态交互,以突出不同层次的模态公共信息和模态特定信息,从而更好地指导学生模型的学习——SEM(Specific Enhanced Modules) ——对1,2,3层特征
在这里插入图片描述

(2) 对于深层的特征(第四层)所提出的一致性增强模块(CEM) ——获得具有更多模态公共信息的模态交互特征
在这里插入图片描述

(3) 调整 学生模型中的通道特征维度 使其与教师模型一致——ABF模块
调整通道维度,并动态的聚合学生模型中的跨层特征ABF模块

复制代码
3. 损失函数——特征学习蒸馏损失,使学生模型模仿教师模型中的特定和公共信息  
在这里插入图片描述

MPSD(Multi-path selection distillation)
在这里插入图片描述

通过多路径优化策略缩小教师模型获得的融合特征和学生模型获得的特征之间的差异

在学生模型中,MPSD从模态差异、模态共性和模态互补三个角度进行多模态特征融合

三种类型的初始融合特征,sa是空间注意力机制
在这里插入图片描述

复制代码
  * SA——多模态数据的互补信息
在这里插入图片描述
复制代码
           1. 将特征进行级联

           2. 然后使用1*1卷积和softmax层获得两个通道权重图
           3. 将两个通道权重图划分为两个可靠性权重图分别选择RGB特征和TIR特征

融合蒸馏损失
在这里插入图片描述

  • 为了使学习模型在不同的场景下能自适应地选择与教师模型更相似地融合路径,引入了一个额外的惩罚来提高训练过程中的知识转换效率
  1. 选择学生模型的初始融合特征和教师模型的融合特征之间差异最小的融合类型
    在这里插入图片描述

通过MPSD中的自适应选择部分,学生模型本身也将预测适合于当前跟踪场景的一类初始融合特征
在这里插入图片描述

惩罚
最小化惩罚,可以是学生模型根据教师模型自适应地选择融合路径,提高互补信息的探索
在这里插入图片描述

  • 总损失
    在这里插入图片描述

  • HFRD(Hard-focused Response Distillation) * 缓解目标和背景之间数据不平衡问题 来提高学生模型的判别能力,利用教师模型生成的响应图(以空间注意力形式生成的)指导学生专注于区分目标和难负样本

    • R_t——教师模型响应图,R_g——由真实边界框构建的高斯形状掩码,R_c——校正后的掩码
      在这里插入图片描述
  • 损失
    在这里插入图片描述

  • 总损失
    在这里插入图片描述

Experiments

实施细节

训练

复制代码
  * 数据集:LasHeR
  * $\alpha=0.001,\beta=100$
  * 两阶段训练 
* 先训练教师模型——MFNet
* 然后联合教师模型的损失和蒸馏损失监督训练学生模型

在线跟踪

和Dimp一样

消融实验
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

定量比较
在这里插入图片描述
仅限于自己学习记录,可能有错误或疏忽

全部评论 (0)

还没有任何评论哟~