Advertisement

CVPR2018读文笔记:VITAL:VIsual Tracking via Adversarial Learning

阅读量:

在第 CVPR 2018 会议上共发表了三篇文章采用了对抗性方法进行目标追踪研究。其中 VITAL 和 SINT++ 都采用了对抗的概念,在面对缺乏多样性的情况下进行了在线采样的正样本增强。

本文由UC Merced 大师级专家Ming-Hsuan Yang与腾讯深度合作推出的一篇创新性研究论文中提出了一种性能卓越的online trained two-stage T-by-D tracker系统。该研究重点解决two-stage单目标跟踪器在在线训练阶段正样本获取过程中的关键问题:一是由于在目标物体上一帧位置周围进行密集随机采样导致正样本之间高度相似从而缺乏多样性二是针对正负样本不平衡这一挑战研究团队创新性地引入了基于生成对抗网络(GAN)的思想来增强正样本的质量并采用了一种新型类Focal Loss方法来优化困难负样本分类(这部分内容较为深入不作详细讨论)。

本文的主要贡献在于提出了一种基于类注意力机制的新方法,在GAN框架中实现了特征级别而非像素级别的生成过程。该生成器模块通过两层全连接层计算出一个掩码矩阵,并对该掩码进行element-wise dropout处理后与前端CNN提取的特征图完成乘法操作。在这一过程中所涉及的关键步骤中(即所谓的特征选择过程),我们通过加权掩码处理选择了样本中更为稳定且具有鲁棒性的特征(即那些不容易变化且能较好地区分不同样本特征的地方),从而有效缓解了因图像外观变化导致的目标追踪偏移问题。

如图所示,在CNN的最后一卷层与分类器的第一个全连接层之间插入了两次全连接操作以及一个掩码加权操作(即masking weighted operation);而判别器则为后面的分类器(包含两个全连接层),整个网络架构极为简洁。

这里implement的GAN,与传统意义上的GAN有4点不同:

  • 输入基于image patch feature map而非noise distribution采样的结果;
    • 训练目标为获得一个分类器(discriminator),而非生成器;
    • 该学习过程采用了监督学习的方式,在结合了一个用于判别器(discriminator)的分类器进行训练的基础上使用交叉熵损失函数;
    • 在生成过程中,并未采用与输入具有相同维度数目的图像生成的方法;相反地,在生成时所使用的掩膜仅具有与输入相同的尺寸。

这个GAN的训练目标如下式:

在训练过程中采用交替更新的方式进行模型优化。在对判别器D进行训练时,在某一帧中随机采样得到一批候选样本,并将这些候选样本输入到网络中。通过前向传播机制将所有候选样本依次传递到网络各层处理。生成器模块随后输出对应的掩膜矩阵。每个mask对应的特征图分别输入到判别器中进行分类判断,并计算对应的损失值;接着利用反向传播算法更新判别器参数,在此过程中固定生成器中的两层全连接层参数不变。

在训练过程中,在刚刚生成的N个mask中挑选导致最终分类损失(loss)最大的那个位置M,并将其代入上述公式中计算;随后固定D模型的参数;分别进行以下操作:1. 进行一次分类;2. 计算对应的损失值;3. 对生成器G进行梯度更新。

值得注意的是,在GAN模型中:

  • 判别器D的目标是最大化生成的一个带有生成掩码G(C)权重的"假样本"与一个最优掩码M权重的真实样本之间的分类误差;
  • 而生成器G的目标是尽量减小D对上述两种加权后样本进行区分的能力。
    换句话说,
    即,
    Generator倾向于通过掩码学习提取能够体现出数据类别差异的关键特征;
    因为这类特征在外观变化时可能导致分类器出错,
    而相对地,
    Discriminator则致力于学习更加鲁棒且稳定的特征,
    以对抗外部环境变化带来的干扰。

效果演示:

将两个相邻的帧划分为两组,在这两组中分别应用生成对抗网络(GAN)与无生成对抗网络处理。通过对比分析发现,在应用生成对抗网络后(即当大卫突然转身时),分类器依赖的特征信息全部失效。这种情况下(如眼睛、鼻子、嘴等),可以被视为具有判别性但缺乏鲁棒性的特征;换句话说,在没有生成对抗网络的情况下分类器无法有效识别目标;然而,在应用生成对抗网络后,则能够捕捉到更具鲁棒性的特征;这种现象表明即使是在外观变化较大的情况下(appearance variation),基于深度学习的方法也仍然存在一定的局限性;具体而言,在无GAN的情况下分类器所关注并依赖的特征显得过于敏感而不稳定;而在有GAN时,则显示出更强的能力来适应外观变化带来的挑战

全部评论 (0)

还没有任何评论哟~