DiMP:Learning Discriminative Model Prediction for Tracking
文章目录
- 
- 
- 摘要
 
 
 - 
 - 
研究背景
 - 
主要贡献分析
 - 
本文提出的方法
 - 
在工作1中,我们通过网络调参提出了一个新的损失函数,并对其性能进行了评估。
 - 
在工作2中,则提出了一个强有力的迭代策略以确保模型能够快速收敛。
* 参考 
摘要
本文致力于解决基于Siamese网络系列跟踪算法在未充分考虑目标背景信息这一问题,并提出了一种改进方案以增强模型对目标特性和背景特征的区分能力。具体而言,在研究过程中我们设计了一种融合least-square regression与hinge loss两方面优势的新损失函数,并通过引入端到端学习的方法实现了对损失函数中关键参数的有效优化。在实际应用中发现,在跟踪阶段该创新性的框架能够显著减少迭代次数的同时仍能快速收敛并生成具有较高特异性的跟踪模型
背景
一般情况下单目标追踪是指为每一帧中的任意一个目标状态(其位置和尺寸)的基础条件。由于target-specific信息仅能确定于在线追踪阶段,并非可以通过离线预训练模型实现学习(即,在追踪过程中出现需要追踪的目标若在训练阶段未被涉及,则难以通过现有模型处理)。因此,在尝试采用端到端的方法进行目标追踪时,上述问题仍需解决。
本文采用了Siamese系列算法 作为基准,在单目标追踪领域已获得广泛应用,并展现出较强的性能表现。该算法通过计算目标模板与当前帧图像之间的交叉相关性来确定两者之间的相似程度,在相似度最大的区域确定为当前目标的位置。然而该方法存在若干主要缺陷:第一,在追踪过程中仅关注了目标的外观特征而忽视了背景信息;第二,在未见示例物体的情况下其基于相似度度量的方法导致泛化能力不足;第三是该系列算法的整体追踪策略略显不足。
贡献
那么,本文旨在针对上述问题提出相应的改进方法:第一,在本文中构建了一个端到端的模型权重预测网络,并通过设计一个新的损失函数来同时学习目标信息与背景信息;第二,在此权重预测网络中仅采用了少量参数来进行学习,并采用网络调参的方式以防止过拟合;第三,在此过程中我们还设计了一个基于模型更新进行优化调整的快速迭代更新策略。
本文方法

该跟踪系统由两个核心模块构成:一个是目标分类分支 ,用于识别待追踪物体与背景区域的区别;另一个是边界框估计分支 ,旨在实现细致且精确的目标边缘定位。在处理分类任务时,在多个训练数据集中提取多样化的深度特征表示,并将其与对应的候选边缘图输入到模型预测模块中生成用于精确定位目标的目标响应权重矩阵。随后通过卷积运算将加权后的特征图与滤波器banks进行匹配,在此过程中计算出每个候选区域的最大置信度分数值,并确定置信度最高的位置即为目标当前帧图像的核心区域坐标位置。在处理边界框估计任务时,则基于优化最大化候选区域与其真实标注之间的IoU值来进一步精化边界框的位置参数设置
工作1:提出一个新的损失函数并通过网络调参
作者主张传统的基于最小二乘法的损失函数在处理负样本时并非旨在提升模型的判别能力而是倾向于降低其损失程度这一做法未能有效解决目标信息与背景信息分布失衡的问题。为此作者结合了最小二乘法的优势以及hinge loss的优势设计出新的损失函数并通过数据驱动的方式优化目标函数中的参数以期达到更好的性能效果。

基于像素点与目标中心之间的距离来设定参数,在图像区域内若为目标区域,则mc值趋近于1;而若为背景区域,则mc值趋近于0。由于难以准确判断边界层的归属关系,在此研究中我们采用了数据驱动的方式对损失函数中的相关参数进行优化配置,并无需人工标注即可实现精准配置。具体而言,在公式推导过程中我们将其中的参数以径向基函数的形式表达(即其数值与该像素点至中心位置的距离呈相关性)。
工作2:提出一个强有力的迭代策略来确保模型快速收敛
当执行滤波器更新时, 作者指出传统梯度下降方法通常采用恒定的学习率进行参数更新, 但其收敛速度较慢. 在本文中, 作者为了简化计算过程, 对损失函数进行了近似处理, 这一做法允许学习率可以通过调整滤波器的更新来进行优化选择, 因此导致每次迭代都需要重新评估学习率, 从而以加快模型的整体收敛速度为目标实现更快的学习进展.
