Advertisement

Kernelized Correlation Filters (KCF) Tracking算法

阅读量:

该文本介绍了视觉跟踪领域的相关滤波器(DCF)及其改进方法,包括自适应相关滤波器(ADCET)和核相关滤波器(KCF)。DCF通过训练滤波器模板实现目标跟踪,具有在线训练和实时检测的优势。然而,其主要局限在于仅使用灰度特征,难以适应目标形变和尺度变化。改进方法如MOSSE和DSST分别通过最小化均方误差和考虑尺度变化,提升了跟踪性能,但仍然面临大形变和遮挡问题。KCF通过核技巧和循环矩阵加速计算,增强了相关滤波器的能力。文本还讨论了检测与跟踪的结合方法,包括目标丢失后的重检测和抗变形问题,同时指出KCF在尺度估计上的不足及其可能的解决方案。整体而言,文本系统地总结了相关滤波器在视觉跟踪中的发展与挑战。

Correlation Filter-based Tracking Frame

Discriminative Correlation Filter(DCF),即Discriminative Correlation Filter(DCF),是一种在Visual Tracking领域广泛应用的跟踪算法。其核心思想在于,每一帧中被良好检测的目标提供了描述该目标的信息,因此可以通过将每一帧中的目标区域作为训练样本进行模型训练。具体做法是通过已跟踪的若干帧中目标的位置,提取相关特征,训练出一个滤波器模板。对于新帧中的目标区域,提取该区域特征并与滤波器模板进行相关性计算,从而得到目标在新帧中的预测位置。以该预测位置为中心,提取相应特征,反向更新滤波器模型,并重复上述过程以实现目标的实时跟踪。通过这种方法,实现了模型的在线训练与目标的实时跟踪。

Adaptive Correlation Filters

Minimum Output Sum of Squared Error (MOSSE)

The MOSSE algorithm, developed by Bolme et al., has significantly improved the tracking performance of related filter tracking algorithms, achieving higher precision while reducing computational complexity.

我们定义了t个目标区域样本,分别用f_1, f_2, \cdots, f_t表示。通过滤波器h_t处理后,输出信号g_i(通常为二维高斯函数,其峰值位置精确地对应于目标区域的中心位置),通过最小化均方误差,我们能够有效地优化系统性能。

H_t求导,令导数为0,得:

在t+1帧中,假设在第t帧的目标区域中提取特征图z,进而计算与该特征图的相关值。

y的最大值的位置即被认为是t+1帧中目标区域的中心点.

在新帧中,目标区域的中心点被相应移动,从而确定了新的目标位置。接着,我们从训练集中提取该区域的特征,并将其用于模型更新,从而得到h_{t+1}。随后,我们即可在下一帧中进行目标检测。

在实际的tracking过程中,一般使用如下方法来更新模型:

其中\eta为学习率。

缺点

该模型仅依赖灰度信息作为特征,其特征维度明显不足,难以充分捕捉目标的特性。
该系统仅考虑了帧间平移运动,忽略了画面上的尺度变化,在目标尺寸发生显著变化时难以有效应对。

Discriminative Scale Space Tracking Filter (DSST)

对MOSSE的改进:

在灰度空间中,通常采用fHoG(31维度)而非DSST(28维度)进行特征提取。在目标尺度发生变化的情况下,需要考虑目标尺度变化

忽略尺度变化的影响
仅针对单一目标进行分析,令特征空间的维度为d,则特征图可表示为f^l,其中l=1,2,…,d。滤波器设计应与特征图匹配,误差函数定义为:

引入λ项旨在通过控制滤波器频域参数求解过程来避免除以零的情况,同时,这也可以调节滤波器参数的变化范围,具体而言,λ值越小,滤波器参数的变化范围越大。

引入λ项旨在通过控制滤波器频域参数求解过程来避免除以零的情况,同时,这也可以调节滤波器参数的变化范围,具体而言,λ值越小,滤波器参数的变化范围越大。

对上式做傅里叶变换,求导,令导数为0,得:

在实际操作中,可以用下式更新模型:

新帧预测:

在尺度变化的考虑下,滤波器和特征图的维度从d\times M\times N扩展为d\times M\times N\times S,其中,S定义为尺度的数量,即构建金字塔结构。这使得计算复杂度提升至O(dMNS \times \log MNS)

改进思路,两组滤波器模板:

  • d个大小为M\times N的二维位置滤波器
  • 个大小为S的一维尺度滤波器

位置滤波器的训练方法与之前相同,而尺度滤波器则是在确定了目标区域中心后,通过提取其对应区域的d个二维矩阵,并将其展平为向量,从而形成尺度因子s下的特征向量,进而构建尺度滤波器。

完整算法

  • 估算位置

在前一帧位置p_{t-1}和尺度因子s_{t-1}下,划定区域以提取特征z^{loca}_t
在位置滤波器A^{loca}_{t-1}B^{loca}_{t-1}的关联下,得到y^{loca}_{t}
将最大响应点定位为当前帧的目标中心位置p_t
估计尺度参数s_t

复制代码
* 在帧中根据位置和前一帧的尺度因子划定区域,缩放后得到S个区域,提取特征$z^{scale}_t$
* 将征与尺度滤波器$A^{scale}_{t-1}, B^{scale}_{t-1}$做相关得到$y^{scale}_{t}$
* 将最大值点设为当前帧的目标尺度$s_t$
  • 更新模型

在某一帧中,基于估算出的位置和尺度划定区域以提取特征,从而获得位置特征f^{loca}_t和尺度特征f^{scale}_t。通过更新位置滤波器,获得位置滤波器变量A^{loca}_{t}B^{loca}_{t}。通过更新尺度滤波器,获得尺度滤波器变量A^{scale}_{t}B^{scale}_{t}

复杂度O(dMN\times\log MN + dMNS \times \log S)

缺点

  • 难以适应大幅度形变、遮挡等
  • 循环卷积边缘效应
这里写图片描述

SRDCF对此做出了改进。

Kernelized Correlation Filters

The overall performance may be limited due to the MOSSE filters being categorized as simple linear classifiers. By leveraging the kernel method, correlation filters should demonstrate enhanced capabilities.

Building Blocks

Linear Regression

考虑:

是一个控制过拟合的参数,则 w的解为:

在复数域中,上是中的转置(T)替换为共轭转置(H)。

Circulant Matrices

仅考虑一维单通道信号\mathbf x的情形,二维可以类推。的轮换矩阵为:

轮换矩阵 X有一个重要性质:

其中 F是DFT矩阵(constant),\hat x = \mathcal{F}(\mathbf x)

Putting it all together

考虑X^HX

定义 \odot为element-wise product,则上式可表示为:

Linear regression的解的傅里叶变换可以表示为:

Non-linear Regression

Kernel Trick

将线性问题转换为\phi(\mathbf x)空间中的非线性问题可以使用核函数,即:

  • 将解\mathbf w表示为的线性组合:

求解的过程变为对偶空间(Dual Space)中求解\mathbf \alpha的过程。

  • 将点积表示为:

核函数无需明确给出向量的详细形式,即可完成从低维到高维的映射。

Fast Kernel Regression

核函数回归在对偶空间的理论解:

其中 K_{i,j}=\kappa (\mathbf x_i, \mathbf x_j)

对于轮换矩阵C(\mathbf x),如果核函数对任意的置换阵M均满足\kappa (\mathbf x, \mathbf x')=\kappa (M\mathbf x, M\mathbf x'),则其相应的核矩阵也是轮回的。

满足上述定理的核函数有:

  • Ridial Basis Function kernels - e.g., Gaussian.

  • Dot-product kernels - e.g., linear, polynomial.

加性核 - 例如,交集、χ²和Hellinger核。
指数化加性核。
此时,可以在频域中表示为:

其中,\mathbf k^{\mathbf x\mathbf x}表示kernel matrix K=C(\mathbf k^{\mathbf x\mathbf x})的第一行,其物理意义为。

的傅里叶变换。

Fast Detection

我们希望评估的image patch为\mathbf z,则kernel matirx:

其中,\mathbf k^{\mathbf x\mathbf z}\mathbf x\mathbf z之间的kernel correlation。

它等价于:

Fast Kernel Correlation

Radial Basis Function and Gaussian Kernels

RBF kernels通常具有下列形式:

由于置换阵不影响 的模,因此可以写成:

特别地,高斯核:

Dot-product and Polynomial Kernels

To be continued.

Multiple Channels

该计算方式允许我们通过将每个通道的点积相加来计算点积。基于DFT的线性特性,我们可以将结果在傅里叶域内每个通道进行求和。

以高斯核为例:

Algorithms

在实际应用中,Tracking模板的更新可以采用学习率控制的方法,参照Danelljan等人的研究,Danelljan, Martin, et al.在《Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition》2014年的一篇论文中探讨了Adaptive color attributes for real-time visual tracking。

分子和分母 \mathbf\alpha^p=\frac{A_N^p}{A_D^p}分别按下述策略更新:

Experiments

该基准测试由Y. Wu、J. Lim和M. H. Yang共同编制,论文标题为《针对在线目标跟踪任务的基准测试》,发表于CVPR,2013年。

复制代码
  * KCF=Gaussian Kernel
  * DCF=Linear Kernel

Detection-Tracking System

The Combinition of Detection & Tracking

Target Lost

定义为Peak to Sidelobe Ratio(PSR)。设滤波器模板与目标区域特征进行相关后,得到响应为G。其最大值为 G_{max},以其位置为中心的 11\times 11区域内响应的平均值为 \mu,方差为 \sigma^2,则PSR定义为\frac{G_{max}-\mu}{\sigma^2}

通常情况下,当目标区域与模型高度吻合时,PSR>20;相反地,当PSR<10时,基本上可以判断目标已经丢失。

问题: 仍然缺少自动学习 PSR阈值的相关算法。

Re-detection

当目标丢失后重新检测时,通过对所有检测到的候选区域进行匹配,选出响应值最大值最高的候选区域。若该候选区域的PSR高于跟踪时的PSR阈值,则可判断原先跟踪的目标区域已重新出现。

Anti-deformation

KCF略优于DSST。

通过调节核函数参数,可以增强抗形变能力。然而,这可能会导致误跟踪目标,Colorname Distance方法有效解决这一问题。

Scale Estimation

KCF只能实现位置追踪,不能估计尺度变化,目前有两种解决方案:

基于DSST尺度估计器(Danelljan, Martin等. “准确的尺度估计以实现鲁棒的目标跟踪。” 英国机器视觉会议,诺丁汉,2014年。)

构建了一个三层金字塔,依次为尺度扩大、保持不变和缩小,与跟踪模板进行相关性计算。通过比较最大响应峰值(或PSR)来确定最佳尺度。

在scale快速变化的情况下,会出现slope overload,但其速度超过DSST Scale Estimator(包含33个scale proposals)。

问题: 更好的Scale估计方法?

全部评论 (0)

还没有任何评论哟~