目标跟踪之CVPR_2017_Attentional Correlation Filter Network for Adaptive Visual Tracking
Attention feature:
该研究指出,在视觉项目应用注意力机制可能会提升或削弱视觉性能
文章探讨了若干假设,并基于实验数据得出了以下结论:研究结果表明:通过提高空间分辨率的方法(即attention机制),边缘区域的表现得到了显著提升。值得注意的是,在边缘区域的空间分辨率普遍较低的情况下,相比之下,在中心区域的空间分辨率相对较高。然而,在整体上引入了注意力机制能够提高各区域的空间分辨率,并且这种调整使得在边缘区域的表现得到了进一步提升的同时导致在中心区域的表现有所下降。(attention increased the mismatch between the texture scale and the size of central spatial filters, and provide strong support for the hypothesis that attention can enhance spatial resolution.)
在以下的一篇文章中就利用了这种特征构造了一个映射图。
在(2016)一篇名为《Visual Tracking Using Attention-Modulated Disintegration and Integration》的文章中
这里仅介绍文章中提出的attention weight map。
Attention weight map构成这一领域中的两个关键组成部分之一的是强关联权重(sAWM)和弱关联权重(wAWM)。
首先sAWM的构造过程如下:
sAWM的每个元素都源自AWE。具体来说,AWE即是attentional weight estimator,它是通过将多个决策树输出的数值取平均值来计算的。
考虑到单个决策树的训练时间较长,在每一帧都需要单独建立一个决策树,则计算开销将显著增加。因此引入了并行化延迟调整机制(PGDM)以优化计算效率。该机制的核心架构包含一个主干树与多个子结构组成,在主干处理完毕后能够快速生成预测结果。其中主干与子结构之间通过主干的歧义节点进行信息传递。这些歧义节点代表尚未完全确定的结果分支,在后续处理中将分别由相应的子结构进行补充完善。
主树和子树中每个样本的结点都通过下面的式子进行分类:

Np是总的样本数,Xi是特征i,NL和NR分别是左右结点的样本集
参数(c,T)是通过最小化下式得到:

a=0和a=1应该是两个类别(因为要分到左右孩子),nl^a=1是指属于a=1类别的样本数。
上式的分类会重复进行直到下面三个条件其中之一被满足:
1、所有剩余的样本都归属于同一类
2、剩下的样本不能再分
3、剩余样本数<10
以下是ambiguous leaves的定义:

E是一个阈值,L^m是包含主树所有叶子的集合
叶子处的attentional weight通过下式计算得到:

sAWM构造过程:
sAWM实际上是一个余弦窗,

sAWM能使中心聚集高权重部分,而低权重部分则被分到边界区。
因此AWM可以通过两者结合得到:

Wf是ws的dependency,由前面帧的结果得到。
于CVPR 2017年发表的一篇论文《attentional correlation filter network for adaptive visual tracking》中,研究者略微优化了文中所述的映射图方案。
作者认为应该采用W_w对W_s施加权重作用,并赋予特征中心区域更高的权重系数,在面对含有大量噪声和不可靠数据的W_s时可能会取得稍许更好的效果

