Advertisement

[Robust Tracking]视频跟踪MEEM — 多专家模型

阅读量:

论文链接:http://cs-people.bu.edu/jmzhang/MEEM/MEEM-eccv-preprint.pdf
代码及demo:http://cs-people.bu.edu/jmzhang/MEEM/MEEM.html

最近开始视频跟踪检测的学习,刚开始接触tracking,本文分析可能会存在纰漏。针对模型漂移问题,实质上就是因为tracker中dad update才会造成模型漂移问题,本文提出MEEM正是用于对错误更新的更正,避免错误的feature更新影响tracker的跟踪结果。

本文的main idea 是提出一个多专家的模型和用于semi-supervised的损失函数。与其他的tracker相比,MEEM实质上是在基本tracker(这里用的是SVM)的基础上,在怎么预测下一帧的目标这个过程中做改进,意思是在基本tracker的分类结果中,再挑选预测精度最高的object。其实这里的多个experts,本质是多个tracker, MEEM能够允许多个tracker 同时工作,即使其中一个tracker发生了错误的更新,专家组中仍然有其他有着良好的更新的tracker能够继续工作,这个是解决模型漂移问题的关键。
模型漂移

下面将对MEEM中的几个关键点进行解读:

  • experts ensemble专家组

随着每一帧的输入,每隔50帧专家组就会记录一个snapshot,用这一帧的feature作为专家。在经过base tracker 训练之后,每个专家都会有自己特有的candidate bag (由candidate patch组成)。每一帧的更新中,都用损失函数对每个专家进行评估。在进行prediction阶段,通过计算累积损失函数,选择累积损失函数最小对应的专家作为最优的专家,在这个最优的专家的bag中挑选分数最高的patch作为本帧的目标跟踪位置。

  • loss function损失函数

传统的损失函数,通常是通过计算真实值和预测值之间的平方误差,然后让平方误差最小,但是这种方法仅限在监督学习中使用。本文的MEEM, 提出了新的损失函数算法用于半监督学习模型。
损失函数

(3)式即为损失函数,L是预测概率,H是熵正则化项。

第一项:在partial-labeled样本中,被正确标记的似然函数。其实就是概率值,对于已经被标记的样本,P=1;未被标记的样本,对应各组分类数(比如分两类y=1和y=-1)
p(y=1)=0.9 p(y=-1)=0.1 则此时这个未被标记的样本最可能属于1类(最可能=似然)

第二项:根据条件熵的定义,这一项表示在训练集和候选patch的条件下得到跟踪目标的不确定性,熵的本质是不确定信息的度量。就是说:在已知样本特征情况下,肯定分类的情况越确定越好(熵值越小)。熵正则化的另一层意思是避免过拟合问题的出现。

所以,两项相减表示:样本被分到某一类的概率减去分类的不确定性=被分到这一类的确定性。我们的目标是要使得被正确分类的确定性最大。用ML算法计算预测概率L,从L中减去不确定信息,剩下的就是预测概率中确定性的信息,该P值越高代表着预测结果的确定性越好,跟踪效果越好。
累积损失函数

通过用损失函数评价专家,然后通过计算累积损失函数来挑选最好的专家。下图为MEEM算法图:
MEEM算法流程图

  • SVM分数转换
    训练SVM分类器,得到初步的跟踪结果(标注为+的位置为目标位置)。针对分类为+的feature和位置用下式转换成confidence score:
    转换公式

两项均假设服从高斯分布:
第一项:预测位置服从均值为上一帧预测位置的高斯分布,下一帧的位置在上一帧位置附近的概率为高斯分布密度函数;
第二项:目标特征也服从高斯分布。
用这个公式来挑选候选的patch,该置信分数大于0.9的即为好的patch,则将该patch加入到候选bag中。

完整的算法流程图如下:
算法流程图

  1. 输入training test,一帧一帧的输入,确定了被跟踪的目标(+样本),确定搜索步长和搜索半径;

  2. 提取特征CIE Lab,对L进行了局部秩变换(a non-parametric local rank transform)与Lab一起组成了4通道原始图像特征,并使用核函数映射;

  3. 训练SVM分类器,得到分类超平面;

  4. 用损失函数评价专家,得到 拟合值(L极大似然估计);

  5. 为了得到专家E的candidate instance bag x,计算置信分数,如果这个计算的值F>0.9,则将该patch加入候选bag中,这样就得到的各个专家的instance bag;

  6. (起始个数为0,达到4个后个数就恒定为4)专家个数为4,每个专家记录的snapshot不同,所以彼此预测结果也不同。针对每一个专家,针对搜索范围通过计算F都output a confidence map, ,取这个的最大值作为该专家的预测。

  7. 现在已经得出专家组中各个专家的预测结果,用时间窗内累计损失函数最小来挑选最好的专家,得到相应的预测结果;

  8. 输入下一帧图像,repeat

    • 评价指标

1,Precision plot (精确度图)
采用的是中心位置误差,定义为被跟踪目标的中心位置和人为标记的中心位置之间的欧式距离。精确度图能够表示预测的位置在设定的精确阈值距离之内(这里取threshold=20pixels)的帧数占总帧数的百分比。

2,Success plot (成功率图)
边界框重叠率, S = |γt∩γa | / |γt∪γa |,其中∩和∪分别表示两个区域的交集和并集,|.|指其区域内的像素点个数。我们使用每一个成功率图的曲线下面积(AUC)作为替代,用于给跟踪算法进行排序。累计面积越大,给定的跟踪算法得分越靠前,排位越靠前。
3,TRE
将视频分段,给定一个标记了目标准确边界框的初始帧,跟踪器被初始化并运行直到序列结束跟踪器会在每一个序列的片段上进行评估且整体的统计数据也会被记录下来。
4,SRE
在初始化的边界框中,用八种空间偏移(4个中心偏移和4个角偏移)和四个尺度变化(补充材料),偏移量为目标尺寸的10%,尺度比例变化可取准确值的0.8、0.9、1.1和1.2。因此,针对SRE我们对每个跟踪器评估12次。
此处是用3,4去评估,用1,2来画图。

与MEEM相关的一篇博客:<>

尊重原创:
原文链接<>

全部评论 (0)

还没有任何评论哟~