Advertisement

Rotation Equivariant Siamese Networks for Tracking ---cvpr2021-sot

阅读量:

用于跟踪的旋转等变siamese网络

Abstract

旋转是视觉对象跟踪中长期存在但尚未解决的艰巨挑战之一。 现有的基于深度学习的跟踪算法使用常规的CNN,这些CNN本质上是平移等变的,但并非旨在解决旋转问题。 在本文中,我们首先证明视频中存在旋转实例时,现有跟踪器的性能会受到严重影响。 为了避免旋转的不利影响,我们介绍了等速旋转连体网络(RE-SiamNets),该网络是通过使用包含可控滤镜的等分组卷积层构建的。 SiamNets允许以无人监督的方式估计对象方向的变化,从而也方便了其在相对2D姿势估计中的使用。 我们进一步表明,通过对两个连续帧之间的方向变化施加限制,这种方向变化可以用于在siam跟踪中施加附加的运动约束。 为了进行基准测试,我们展示了旋转跟踪基准(RTB),它是一个包含一组带有旋转实例的视频的数据集。 通过对两种流行的暹罗体系结构进行的实验,我们证明RESiamNets很好地解决了旋转问题,并且胜过了常规的旋转。 此外,RE-SiamNets可以以无人监督的方式准确估算目标姿势的相对变化,即目标相对于参考框架的平面内旋转。 代码和数据将在https://github.com/dkgupta90/re-siamnet上提供。

1. Introduction

使用siam网络[1,28]进行视觉对象跟踪的任务,也称为siam跟踪,将跟踪问题转化为模板帧与候选帧中采样区域之间的相似性估计。 暹罗跟踪器最近在视觉对象跟踪领域中变得越来越流行,尤其是因为它们从相似性匹配中获得了强大的区分能力。 这是大多数最先进的跟踪器都基于此框架的主要原因[1,11,18,19,28]。
在这里插入图片描述
图1:示例展示了用于对象跟踪的常规CNN模型中的旋转非等方差,ψθ(f(·))6 = f(ψθ(·))。 在此,f(·)和ψθ(·)分别表示神经网络的编码函数和旋转变换。
!! :说明了不同角度的图像提取的特征并不是简单的旋转的关系

尽管通常显示暹罗跟踪器工作良好,但在部分遮挡[16],比例尺更改[27]或旋转两个输入之一的挑战下,它们仍然容易出现故障。
本文着重处理对象的平面旋转对siamese跟踪器性能的不利影响。 在没有采取有效解决方案的情况下,对象旋转被认为是最困难的跟踪挑战。 日期。 它通常会在现实生活中发生,特别是当摄像机从顶部进行记录时,例如在无人机中,无论​​是物体在旋转还是摄像机本身。 以自我为中心的视频是另一个示例,其中较大的头部旋转会导致目标旋转。
Siam追踪器中使用的CNN架构与目标的平面内旋转并不是本身就等价的,这意味着该模型在训练集中表示的对象方向上可能表现良好,但在其他先前未见的方向上可能会失败。 发生这种情况的原因是,在这种情况下从网络获得的潜在编码可能无法代表输入图像本身。 展示此问题的示例如图1所示。此外,即使是等变的,传统的Siam跟踪器中的互相关步骤由于模板和候选图像之间的旋转移位,仍然无法在模板和候选图像之间执行准确的匹配。
强制学习旋转变量的一种直接方法是使用训练数据集,其中平面旋转自然发生或通过数据增强发生。 但是,正如[17]中强调的那样,数据扩充存在一些局限性。 首先,这样的过程将需要学习用于数据的不同旋转变体的单独表示。 其次,要考虑的变化越多,跟踪器模型就需要越灵活地捕获所有变化。 这意味着训练数据和计算预算将大大增加。 此外,这种方法将使模型对于旋转不变,因此当目标被类似物体包围时,例如在鱼群中追踪一条鱼,则使预测不可靠。
!!:通过外部数据及扩充是不可取的,训练量太大,因为旋转角度非常灵活,不能轻易的学习到
本文旨在将旋转等方差的特性纳入现有的Siam跟踪器中。 然后,该内置功能将允许跟踪器从一开始就捕获旋转变化,而无需额外的数据扩充。 旋转等变网络已经在图像分类的背景下得到了广泛的研究[3,4,33,34,35]。 从这些作品中汲取灵感,我们为视频中的对象本地化任务介绍了旋转等方差。 我们利用组等变CNN的概念[3],并使用可控滤波器[34]来使暹罗跟踪器与旋转等变。 这种合并旋转等方差的方法可以在不同的旋转组之间建立内置的权重分配,并在模型中添加内部旋转概念(进一步称为RE-SiamNet)。

将模板图像解释为跟踪模型的静态存储器,RE-SiamNets预先知道如何为一组离散的旋转表示编码。 在没有其他挑战(例如照明变化和遮挡)的情况下,目标外观将在离散旋转之一时精确匹配,并且预期对于其他中间角度仅包含很小的误差。 此属性增加了跟踪器对目标的方向差异(平面内旋转)的判别能力。 除此之外,RE-SiamNet还可以用于视频中对象的相对2D姿态估计,在本文中也可互换地称为对象的相对方向估计。 RE-SiamNets与平移和旋转等价,并且这些特性与Siamese网络的结构相结合,可以捕获2D目标的姿态变化。 此外,我们提出了一个关于旋转自由度的附加运动约束,并证明了它可以在视频中获得更好的时间对应性。

重要的是要注意,大多数当前数据集,尤其是在跟踪中,包含的旋转实例非常有限。 因此,为了在存在平面内旋转的情况下对模型的性能进行基准测试,我们展示了旋转对象基准(ROB),这是一组专注于平面内旋转的视频。 注释包括目标对象的边界框及其在每一帧中的方向。 进一步总结一下,本文的贡献是:
•我们简要介绍了等变卷积网络。 然后,我们将理论扩展到获得具有面内旋转等方差的旋转等价连体体系结构(RESiamNets)。
•我们证明RE-SiamNets以无人监督的方式估算了任何旋转物体的2D姿态的相对变化。 此外,我们引入了附加的运动约束来改善视频中的时间对应性。
•为了进行基准测试,我们提出了“旋转对象基准”(ROB),这是一个新颖的数据集,包括具有目标平面内显着旋转的序列。
•通过将两种现有的Siam跟踪方法相结合,我们证明旋转等方差可以显着改善跟踪性能并准确估计方向变化。

Siam跟踪。目标跟踪的目的是估计视频中任意目标的轨迹,这些目标仅在视频帧中才具有初始状态[15]。 最近的大多数对象跟踪算法都使用Siam网络,并基于相似度匹配来跟踪对象[6、8、10、25、30、32、37]。 这样的算法估计在给定帧中为目标模板学习的特征表示与候选搜索区域之间的一般相似性函数。
最早的Siam跟踪器SINT [28]和SiamFC [1]使用了具有共享参数的双子网络,并在模板和候选帧的特征图之间计算了点积相似性。 举行等人 [13]介绍了一种基于检测的暹罗跟踪器,其中相似性函数被建模为完全连接的网络。
他们应用了广泛的数据增强功能,以学习用于多对象转换的通用功能。Valmadre等。 [29]介绍了CFNet,它使用可微分的相关滤波器层扩展了SiamFC。 与没有在线更新的跟踪器相比,所有这些跟踪器在对象变形方面都能获得良好的性能,但不适用于快速跟踪情况。 随后的某些方法,例如[12、19、31、39],放弃了在线更新,转而学习了可靠的特征表示。 这允许上述方法使用暹罗网络执行高速跟踪。
跟踪的挑战。 在视觉对象跟踪中遇到了一些挑战,这些挑战可能会影响设计的跟踪算法的性能。 在[26]中进行了详细研究,突出了一些最重要的挑战。 这些包括照明变化,目标的平面内和平面外旋转,由于几个相似物体引起的遮挡,混乱和混乱等。 使用最新的大规模训练数据集,例如LaSOT [7]和TrackingNet [22],以及最先进的深度学习跟踪器,可以高度准确地解决其中的一些挑战。 例如,诸如SiamRPN ++ [18]和DiMP [2]之类的跟踪器通过使用深层的CNN主干网表现出强大的辨别力,并且已经发现可以解决大多数挑战。 但是,诸如遮挡和目标旋转等挑战仍然有待解决。 与解决遮挡跟踪有关的最新工作是[11]和[16]。 在本文中,我们专注于目标轮换的挑战。
等变的CNNs。 最近,有几项工作试图将等方差直接纳入网络的架构中,以捕获各种变换。 在本文中,我们关注于等速旋转CNN,它们在图像分类[5,4],纹理分类[21],边界检测[35]和图像分割[17]中得到了广泛的应用。 Dieleman等。 [5]在现有网络中包括4种操作,以通过其转换版本来丰富批处理和要素维。 科恩等。 [3]首先介绍了组卷积层,其中将变换后的滤波器生成的特征图作为相应对称组的函数来对待。 但是,在这种方法中,计算成本与组大小成正比,并且使用可控滤波器解决了该问题[4,34]。 在[33]中提供了详细的研究,提供了各种现有方法之间的等价性的一般理论。 在本文中,我们研究了对象跟踪环境下的旋转等方差。
在现实生活中,跟踪目标物体非常具有挑战性,特别是因为它可能会发生平移以外的变换,例如平面内和平面外旋转,遮挡和缩放比例变化。 除非网络具有内部机制来处理这些转换,否则模板匹配的相似性在暹罗网络中会大大降低。 最近的暹罗跟踪器[18,38]隐式或显式地集中于使跟踪器平移等变,即输入图像的平移必须导致相应特征空间的按比例平移。 平移等方差的重要性在于减少训练过程中的位置偏差,以便更容易从特征空间中恢复目标的位置。 SiamRPN ++ [18]提出了一种训练策略,该策略可以消除非完全卷积主干中引入的空间偏差。 此外,[38]表明,现有的跟踪模型会引起位置偏差,从而打破严格的平移等方差。 Sosnovik等。 [27]引入了等比例的连体追踪器,当相机变焦镜头或目标移入深度时,这是至关重要的。 我们认为,平面内旋转也是跟踪的重要挑战,尤其是当使用无人机摄像机录制视频,从顶视图录制的其他视频,安装在旋转物体上的摄像机以及以自我为中心的视频时。 据我们所知,从未研究过跟踪中的旋转等方差,我们在本文中对此进行了介绍。

3. Rotation Equivariant CNNs

首先,我们提供一些基本的背景知识,这些内容需要CNN中的等方差和旋转等方差,以构成跟踪器。 有关更一般的概述,请参考感兴趣的读者[34]。
方差:方差的性质要求函数与对称组在其域和共域上作用的行为相通。 对于任何给定的变换组G,如果满足,则映射函数f:X-→Y是等变的。
在这里插入图片描述
其中ψ(·)g表示相应空间中的组动作。 对于不变性,ψ(·)g将是一个恒等映射。
为了清楚起见,我们以平移方差为例。 在此示例中,f代表卷积神经网络函数,ψg代表平移组。 该组中的示例动作包括,例如,向左移动一个像素,或向右移动一个像素,或包括移动几个像素的动作。 通过这种方式,可以在翻译组中定义无数个动作。使网络与平移旋转等价可以减少样本的复杂性,并有助于模型针对平移变换的泛化。
重要的是要注意,如果数据和任务中存在这些转换的影响,则可以在模型中构建除转换以外的其他几种转换,以提高鲁棒性。 举例包括旋转,映射和比例变化。 为了对这些转换中的任何一个进行泛化,需要对各个转换组强制采用等方差。 在这项工作中,我们专注于旋转等变性。
旋转等方差。 在CNN中加强旋转等方差的一种更可靠的方法是通过使用可控滤波器[34]。 可操纵的过滤器CNN(SFC-NN)还将权重共享的概念从平移组扩展到旋转。 对于具有可控滤波器的旋转等方差,网络必须对每个滤波器的不同旋转版本执行卷积。 在这种情况下,权重共享有助于模型更好地推广。
在这里插入图片描述图2:通常用于对象跟踪的RE-SiamNet的示意图。 在模板头上,使用了原始模板图像的多个等距旋转变体。

可控滤波器不仅有助于有效地计算任意数量的离散滤波器旋转Λ的响应,而且还表现出强大的表达能力。 如果滤波器Ψ旋转任意角度θ可以用一组固定的原子函数表示[9,34],则它是可旋转操纵的。 在我们的网络中,我们采用定义为在这里插入图片描述
其中φ∈((π,π]和j = 1,2,…,J允许控制基函数的径向部分。此外,(r,φ)表示(x1,x2)的变换形式 在极坐标中,k∈Z表示角频率。圆谐波的好处在于,现在我们可以简单地将ψjk上的旋转表示为具有复指数的乘法,在这里插入图片描述
注意,为清楚起见,我们将ψjk(·)表示为ψjk(x)。
然后,将每个学习到的滤波器构建为基本滤波器的线性组合,在这里插入图片描述
权重为wjk∈C。要旋转θ,可以通过基本滤波器的相位控制来控制合成滤波器,在这里插入图片描述
滤波器的单个方向可以通过取real的实数部分表示,表示为ReΨ(x)。

4. Rotation Equivariant Siamese Trackers

4.1. Proposed Formulation

对于依赖于相似性匹配的跟踪器Siamese网络,合成热图h(z, x)为在这里插入图片描述
其中z和x分别表示模板图像和候选帧,f(·)是暹罗网络的编码函数,*表示卷积运算。
图2展示了我们用于对象跟踪的RE-SiamNet框架的示意图。 在架构上,由于其简单的设计,我们从基本的SiamFC [1]模型开始并进行了修改。 基本的SiamFC包括以下模块化层:输入层,卷积层以及两个暹罗磁头的输出的互相关。 对于我们的旋转式连体跟踪器,我们用旋转等变模块替换了这些层。 此外,我们引入了一个组最大池化模块,该模块在我们的设置中生成的多个热图中为最合适的方向选择互相关编码。 与这些模块相关的详细信息如下。
Rotation equivariant input.旋转等变输入。
网络的候选头将单个搜索图像作为输入。 然而,模板头被修改为不仅将一个模板图像作为输入,而且将其由集合Z定义的一组Λ旋转变体作为输入,其中Z = {z1,z2,…。 。 。 ,zΛ}。 除了计算模板目标的所有可能的旋转版本Z,我们还可以首先计算原始目标的特征f(z),然后旋转f(z)。 从理论上讲,这由旋转等变网络支持。 然而,实际上,f(z)的空间分辨率非常低,通常为6×6或7×7像素。
结果,由于转换的粗糙性,在拐角和边缘将出现伪像。 相反,如果在第一帧中创建Z时,我们首先围绕目标旋转整个帧(而不仅仅是焦油获取),然后进行裁剪,则它会产生更准确的特征图。 由于这仅在目标分支上执行,因此可以在推理阶段进行预先计算。
如上所述,每个输入图像I包括C个通道,其中每个通道被表示为Ic并且c∈{1、2,…,…。 。 。 , C}。 然后将此输入与ˆC旋转滤波器ρθΨ(1)ˆcc进行卷积,其中cˆ∈{1,2,…。 。 。 ,C}。 基于等式。 5,在应用非线性激活之前获得的最终特征将是
在这里插入图片描述
然后将滤波器按照等距方向θ旋转变形,该等距方向由集合Θ= {0,Λ,…表示。 。 。 ,2πΛΛ1}。然后应用偏置项βcˆ(1)和非线性σ来获得第一层ζcˆ(1)处的特征图。

Rotation equivariant convolutions.旋转等变卷积。
由等式产生的特征图。 使用组卷积进一步处理图7中的步骤,从而在更广泛的一组转换组上推广空间卷积。 与第一层相似,可转向过滤器在组上定义为 在这里插入图片描述
式中引入的附加索引θφ。 权重张量的图8简化了沿旋转尺寸的群卷积操作。 它涉及通过在空间上旋转来变换组上的功能。
Rotation equivariant pooling. 旋转等变量合并。
最后一组卷积层的输出通过在旋转维度上的合并来进一步处理。 与常规分类任务不同,不沿空间维度执行合并以保持旋转等方差
Rotation equivariant cross-correlation.旋转等变互相关。
从Re-SiamNet模块的两个子网中,我们获得了两组特征图,{φ(z)}和φ(x),其中{φ(z)}是包含Λ方向上的特征图的集合。 接下来,对{φ(z)}和φ(x)进行卷积以获得{ˆh(z,x)},这是一组Λ热图,其中hi(z,x)=φ(zi)*φ(x)。 接下来,使用全局最大池化操作对{ˆh(z,x)}进行处理,以获得最终的输出热图h(Z,x)。 全局maxpooling操作标识{ˆh(z,x)}中的最大值,并选择包含该最大值的特征图。
通过介绍上述模块,我们获得了旋转等方差的Siam跟踪器。 再次,我们强调跟踪器与平面内旋转等价的大小,因为平面外旋转需要将3D场景的知识集成到网络中。 接下来,我们描述旋转等变连体跟踪器的训练和推理。

4.2。 构建RE-SiamNet框架

我们在下面概述了使用前面部分中描述的旋转等变模块设计RE-SiamNet框架的步骤。
1.通过区分旋转自由度的不同方向来确定跟踪器的精度。 在这里,我们考虑Λ旋转组,基于该组,RE-SiamNets将与由Θ= {(i i 1)·360 /Λ}Λi= 1定义的角度完全相等。
2.根据现有的暹罗跟踪器定义非参数编码φ(·)。 根据φ(·)的选择,跟踪器的判别力会有所不同。
3.用等旋转量模块1替换所有φ(·)的卷积层。
4.代替单个卷积生成h(z,x),而是执行Λ卷积以生成Λ不同的热图。
5.对特征图执行全局最大池化以生成h(Z,x),然后对其进行处理以定位目标。
请注意,根据跟踪器头的选择,对h(Z,x)的处理操作可能会有所不同。 例如,对于诸如SINT [28]和SiamFC [1]之类的跟踪器,前一帧的姿态目标将以不同的比例和宽高比进行拟合,并从中选择最佳。 对于诸如SiamRPN [19]和SiamRPN ++ [18]之类的其他跟踪器,添加了区域建议模块RPN,该模块使用神经网络头对绑定框进行回归。 在我们的跟踪体系结构中,旋转等方差只需要保持到h(Z,x),因此可以使用这些方法中的任何一种。

5. Unsupervised Relative Rotation Estimation

无监督2D姿势估计。 RE-SiamNets的固有设计可以在完全无人监督的情况下获得目标2D姿态相对变化的估计值。 该信息可以从组最大池化步骤的结果中获得。 设i∈{1,2,,。 。 。 ,; }表示模板图像的Λ方向之一。 然后,如果存在以下情况,则i是模板的姿势与其在候选图像中出现的姿势不同的旋转组数:在这里插入图片描述
那么,以旋转角度θdiff表示的姿态差为i·360 / =。 假设目标的实际面内旋转为θc,则预测误差的度数为|θdiff{θc| ≤3602Λ。 因此,对于较大的Λ值,姿势估计中的误差减小。
Rotational Motion Consistency.旋转运动一致性。
一个重要的优点是RE-SiamNets提供了一种新颖的运动约束,可用于改善对象跟踪中的时间对应性。 需要重申的是,Siam跟踪器主要基于相似性匹配,仅通过将搜索区域定位在先前帧中目标位置周围的任何候选帧中并惩罚两个连续帧之间的平移和缩放变化,才引入了短暂的时间响应。 。 借助RE-SiamNets,我们探索了通过对旋转运动施加限制来改善时间一致性的适用性。 这是在Λ方向中选择θopt∈Θ的过程中实现的。 令θt,opt =θt,i,其中θt,i表示帧t中的第i个方向。 对于下一帧,不是从整个集合θ中选择θt+ 1,opt,而是可以施加约束,使得θt+ 1,opt∈{θi}。 此处的索引i约束为集合{it,opt tγ,。 。 。 ,it,opt t 1,it,opt,it,opt +1,。 。 。 ,它,opt +γ},使得γ是两个连续帧之间在任一方向上允许的方向数量的最大变化。 此约束条件确保方向在两个连续帧之间的变化不超过γ组。

6. Rotating Objects Benchmark (ROB)

引入了一个衡量旋转的数据集

7. Experiments

我们在跟踪和估计相对2D方向变化中验证了旋转等方连体跟踪器。
我们首先将其与跟踪器的非旋转等变版本进行比较,包括SiamFC和SiamFCv2 [1]和SiamRPN ++ [18]。 无论如何,建议的设计理念是通用的,任何暹罗跟踪器都可以从中受益。 此外,我们将DiMP [2]与在标准跟踪基准上获得SOTA结果的结果进行比较。
Training 训练
在GOT-10k [14]训练集上训练了SiamFC的所有旋转等变体。 为了训练SiamRPN ++,我们在ImageNet上训练了ResNet50体系结构的旋转等变版本。 然后使用此主干对Coam [20],ImageNet DET [24],ImageNet VID和YouTube-BoundingBoxes数据集[23]评估集使用SiamRPN ++模型进行训练。 为了评估提出的RE SiamNets在频繁的平面内旋转情况下的性能,我们在ROB,Rot-OTB100和Rot-MNIST数据集上对其进行了测试。 通过将OTB100视频的每帧相对于其前一帧旋转0.5度来构建Rot-OTB100数据集。 Rot-MNIST涉及在GOT-10k图像背景上叠加3-5个MNIST数字,并挖掘其平移和随机旋转,但平滑。
评估
与这两个数据集的生成有关的详细信息以及ROT-MNIST的结果在本文的补充部分中提供。 为了证明添加RE-SiamNets不会降低跟踪器在其他挑战方面的性能,我们在包括OTB100 [36]和GOT-10k [14]的跟踪基准上对其进行了测试。
实现细节
为了设计RE-SiamNet,我们通过用旋转等变层替换常规的CNN层并使用组池化层以单一方向输出要素以进行每次输入来调整现有模型。 这些旋转等变模块使用e2cnn pytorch库[33]添加。 对于基本的暹罗跟踪器,我们使用SiamFC [1],其变体SiamFCv2和SiamRPN ++ [18]。 从现在开始,我们使用前缀“ RE-”来指代跟踪器的旋转等变版本。
对于本文中介绍的大多数实验,我们使用RE SiamFC。 基本跟踪器SiamFCv2在过滤器大小和卷积层数方面与SiamFC不同。 前者仅包含4个卷积层,其滤镜大小分别为9、7、7和6。选择此变体的原因是尝试使用涉及较大滤镜的模型,因为众所周知,这些滤镜可很好地用于旋转等变CNN [ 33]。 本文的补充部分提供了有关SiamFC和SiamFCv2体系结构的完整详细信息。 我们进一步指出,除非有特殊区别,否则我们有时会以相同的名称SiamFC和SiamFCv2来指代SiamFC和SiamFCv2。 对于SiamFC,我们用Λ= 4、8、16的旋转组进行实验,对于SiamRPN ++,我们用Λ= 4的旋转组进行实验。在这里插入图片描述图3:来自3个ROB数据集序列的示例帧,显示了gt边界框(蓝色),以及使用8个旋转组(红色)使用SiamFC [1](绿色)和RE-SiamFC获得的预测。 此外,蓝色和红色箭头分别表示地面真实姿态估计和使用RE-SiamFC获得的预测。

全部评论 (0)

还没有任何评论哟~