Advertisement

面向无人机的视觉目标跟踪算法:综述与展望

阅读量:

摘要

关键词 : 无人机 目标跟踪 相关滤波 深度学习

0****引言

近年来,基于其体积小巧、操作便捷以及便于操控的特点,在民用领域发挥着重要作用,在军事领域具有显著优势,并在科学研究中展现出独特的应用价值[1-6]。就无人机所承担的任务类型而言,在众多应用场景中占据重要地位的是目标跟踪技术这一项目标。该技术不仅具有重要的研究价值[7-8],而且逐渐成为当前无人机技术发展的重要研究方向之一

无人机的目标追踪可通过多种手段得以实现。例如,在追踪目标时可将其配装电子标签或安装GPS追踪装置辅助完成。然而此类方法通常需与被追踪目标保持近距离接触,在实际应用中往往面临诸多困难。随着计算机视觉技术的迅速发展基于视觉的目标追踪技术已成为最接近人类行为且最直观的追赶方式之一。具体而言,在某一视频起始帧内定义感兴趣区域(如人像、车辆等)后系统将根据该区域内物体特征动态更新其位置信息并据此实时更新物体尺寸参数从而完成对移动物体的持续监测工作

无人机视觉目标跟踪与地面目标跟踪相比,面临着4个挑战:1) 由于空中视野广阔,干扰物体数量较多,目标与其他物体之间、目标与背景之间相互干扰,可区分性差,导致目标模型的可辨识性和排他性不高,建立精准的目标模型较困难。2) 当无人机飞行在一定高度时,图像影幅变大,分辨率和清晰度变低,地面上的待跟踪目标尺度变得很小,目标特征和纹理变得稀少,使得目标特征提取困难,特征表示不显著,导致目标检测和跟踪难度变大。3) 无人机在跟踪过程中易受到风力等外界因素的影响,导致相机抖动、视角变化、运动模糊等现象频繁,从而易产生跟踪漂移和丢失的情况,实现鲁棒、稳定、长时的无人机目标跟踪较为困难。4) 由于无人机自身结构特点,大多数无人机仅有一个CPU,计算资源有限,无法承受复杂度太高的运算,如何在保证精度的情况下开发复杂度低的跟踪算法是极具挑战的。随着无人机技术的发展和计算机信息处理能力的提升,尽管无人机视觉目标跟踪算法有了突破性进展,但由于上述难点的存在,无人机视觉目标跟踪算法仍有很大的发展空间。

视觉目标跟踪方法主要可分为基于生成模型的方法[12-13]以及基于判别模型的方法[14-16]两大类。基于生成模型的方法通常未能充分考虑背景信息的影响,并假设目标外观在一段时间内保持稳定;因此,在复杂多变的场景下难以实现可靠的追踪效果。相比之下,在一定程度上判别类追踪算法通过缓解样本不足问题并提取出目标中更多的有用信息;显著提升了追踪精度与速度;并且能够更好地适应复杂的追踪场景。然而随着深度学习技术的发展与应用;判别类追踪算法逐渐占据主导地位;其优势在于能够有效应对样本不足问题并提取出更多有用特征;从而显著提升了追踪效果与效率。然而由于上述挑战的存在;判别类追踪算法仍存在一些局限性:例如对于被完全遮挡的目标难以维持稳定的追踪性能等关键问题尚未彻底解决。因此为了开发一个更加精准、高效且鲁棒的通用跟踪系统;未来研究应着重于提升在线训练效率与复现实时检测能力;同时深入探索如何通过引入迁移学习与对抗学习等前沿技术来优化特征提取机制;以进一步提升对低分辨率小目标的追踪性能等关键指标;最终实现适用于机载无人机平台上的实时视觉追踪任务需求

文[1]重点对无人机视觉目标追踪算法的基本框架及其应用前景进行了详细分析

综上所述

|

|
|---|
|图 1 目标跟踪算法分类框架Fig.1 Classification framework of object tracking algorithm|
|图选项|

表 1 算法缩写说明表Tab.1 Algorithm abbreviation explanation table

算法缩写 算法全称
MOSSE[11] minimum output sum of squared error
SAMF[17] scale adaptive with multiple features tracker

| CSK[18] | 循环结构的基于检测的追踪方法(通过核函数实现) |

DSST[19] 有别于其他方法的多尺度空间追踪器

| SRDCF[21] | spatially regularized discriminative
correlation filters |

BACF[22] background-aware correlation filter
ARCF[24] aberrance repressed correlation filter
BiCF[25] bidirectional incongruity-aware correlation filter
AutoTrack[26] automatic spatio-temporal regularization tracker
MDNet[27] multi-domain network
ADNet[28] action-decision network
SiamFC[29] fully-convolutional Siamese network
CFNet[30] correlation filter networks
VITAL[31] visual tracking via adversarial learning
DSiam[32] dynamic Siamese network
SiamRPN[33] Siamese region proposal network

| Siamese RPN网络[34] | 干扰器意识的Siamese区域提案网络 | | Siamese深度和宽领域网络[35]|深度和宽领域Siamese网络

表选项

1无人机视觉目标跟踪算法1.1****生成类目标跟踪算法

生成类目标跟踪算法聚焦于目标本身的同时,也忽视了图像背景的细节。一些经典的代表算法包括卡尔曼滤波、粒子滤波以及均值漂移等技术。

卡尔曼滤波被视为解决线性高斯问题的经典方案[36]。然而,在实际的目标跟踪场景中多为非线性非高斯问题[37]。国内外学者为了使卡尔曼滤波能够在实际场景中得到应用而提出多种改进型算法。Azrad等[38]开发了一种基于视觉的无人机目标跟踪系统该系统通过卡尔曼滤波器对目标与无人机进行相对位姿估计从而实现无人机稳定跟踪并悬停于目标上方。Chen等[39]提出了一种基于卡尔曼滤波技术的自适应伺服控制方法能够在不考虑目标三维速度的情况下实现无人机对地面动态目标的追踪。Hu等[40]将卡尔曼滤波与马尔可夫模型相结合实现了对无人机目标状态的实时更新同时对目标追踪进行了决策求解。Farahi等[41]开发了一种概率型卡尔曼滤波算法该方法能够根据所构建的概率图追踪具有异常行为的对象并有效解决部分遮挡问题。

粒子滤波(particle filter, PF)算法[42]被Isard等[43]首次应用于目标跟踪领域。相较于卡尔曼滤波相关的方法,在解决强非线性非高斯系统问题方面更具优势;然而由于存在粒子退化现象以及计算量较大的问题限制,在追踪具有较强机动性的目标时效果较为有限。Nummiaro等[44]通过融合颜色特征与边缘特征改进了PF算法的能力,并成功实现了对非刚性物体的跟踪;但由于物体背景与颜色会随时间以及光照条件变化这一固有特性限制,在长时期内难以保证稳定跟踪效果。Maggio等[45]提出了一种基于自适应多特征统计模型的目标跟踪方法;该方法通过融合颜色与方向特征提升了追踪稳定性;但容易受到特征退化的负面影响而影响追踪精度。Kamei等[46]则通过引入自适应颜色特征来增强PF算法的稳定性表现。Wang等[47]提出了一种分段多目标追踪定位策略;该方法采用基于均值漂移的目标建模方式,并结合候选目标间的相似度判断机制实现遮挡检测:当检测到遮挡现象发生时,则切换至PF算法进行精确追踪;若未发生遮挡则继续采用均值漂移算法完成追踪任务;这种混合策略有效解决了无人机目标在遮挡、光照变化等因素影响下出现失追的问题

均值漂移(meanshift)算法[48]是一种经典的基于概率密度分布的方法,最初由Comaniciu等[49]引入到目标跟踪领域中,其核心思想是通过最小化目标与其候选区域的概率密度函数之间的距离来进行目标追踪。该算法具有简洁易懂、实时性强的特点,并且在一定程度上表现出较好的旋转不变性特征,但同时也存在一定的局限性:当目标受到部分遮挡或背景噪声干扰时,容易陷入局部最大值陷阱,导致追踪结果出现偏差。针对上述问题,Birchfield等[50]提出了一种改进型的空间加权直方图均值漂移算法,该方法能够有效捕捉像素间的空间关系特征,从而增强背景与目标之间的区分度。随后,Hwang等[51]在此基础上进一步优化,提出了分块均值漂移算法,将复杂的目标区域划分为多个互不遮挡的小矩形块,并通过对各个矩形块进行独立追踪最终实现对整体目标的完整跟踪效果,从而有效抑制遮挡区域对追踪精度的影响。为了进一步提升算法的鲁棒性,Wang等[52]在此方法的基础上引入了混合高斯模型背景法,成功将图像中的前景物体与背景区域进行了精确分离处理,并弱化了背景色调对追踪结果的影响程度,最终实现了更高水平的跟踪准确性和稳定性表现。Pareek等[53]则在现有研究基础上融合了SURF特征检测技术与均值漂移算法的优点,并结合重投影技术进行优化设计,使得该方法不仅能够处理部分遮挡情况还能有效降低计算复杂度的同时保持较高的运行效率水平

基于生成模型的方法能够构建当前帧的目标区域特征,在比较这些特征时可以推断出最佳匹配位置。这种方法一般假设被追踪物体在短时间内其外观特征相对稳定,并且需要大量高质量的训练样本以及强大的计算能力支持。然而,在无人机target tracking过程中由于环境复杂多变等因素的影响,在无人机target tracking场景中经常出现的目标外观及尺度剧烈变化的情况会严重影响基于生成模型的tracking方法的效果。

1.2判别类目标跟踪算法1.2.1****基于相关滤波的跟踪算法

该算法基于在线学习策略运行,并能在短时间内完成模型更新以适应目标状态的变化[54-55]。通过减少计算复杂度实现更快捷的目标追踪,在频域中执行求解操作相比时域运算可大幅提升了追踪速度并达到了实时效果。在无人机空中目标追踪系统中这些优势不仅体现在模型快速迭代训练以及动态更新上还可在单个CPU上实现实时追踪功能节省能源并支持其他辅助功能扩展[25-26, 56-59]

该相关滤波追踪算法在实现上与另一种方法相仿,在具体步骤上大致遵循相同的逻辑流程

在训练阶段中,首先定位目标位置区域并提取其特征信息;随后将这些特征作为训练样本输入滤波器模型;通过求解回归方程来确定当前帧图像的滤波器参数。通常情况下,各算法均采用带约束的最小二乘法(岭回归)来计算滤波器参数;

|

|(1)|
|---|---|

其中变量_D_(大写字母)被定义为通道的数量,在当前帧中的第_c_(小写字母)个通道中分别记录了样本信息以及滤波器信息;通过循环卷积操作实现了特征之间的关联;最终目标输出量_y_(大写字母)与中间结果量_x_f_c_(双下标变量)以及滤波器参数量_w_f_c_(双下标变量)在维度上保持一致性,并且参数λ(希腊字母lambda)起到了正则化的作用

此外,在滤波器模型更新环节中, 大部分相关滤波器算法都会采用学习率 η, 并应用线性插值法来更新模型参数.

|

|(2)|
|---|---|

在检测阶段之后,在滤波器应用的基础上进行特征提取时

|

|(3)|
|---|---|

其中,** F** -1表示傅里叶逆变换,⊙表示Hadamard乘积。

针对上述三个步骤的求解流程,在目标追踪过程中面临运动模糊、尺寸变换以及物體遮蔽等因素所导致的追踪漂移问题时،研究者们已开发了一系列优化方案以加以应对[17, 19, 21, 65]。基于这种基于相关滤波的追踪方法,在下一节中将进行深入阐述。

1.2.2****基于深度学习的跟踪算法

深度神经网络能够掌握丰富的表征形式并从中识别出复杂的特征,在计算机视觉、模式识别以及图像处理等多个领域均展现出显著的效果[66-71]。然而由于深度网络模型对数据有较高的依赖性且运行过程中会消耗大量内存资源,在单个CPU或计算资源受限的环境中难以实现有效的应用。随着计算机处理能力的不断提升越来越多的研究者致力于探索深度网络在实时目标跟踪任务中的潜在应用目标不仅是在性能上有新的突破更是在速度与鲁棒性之间寻求更好的平衡点相关研究主要包括[27-29, 31, 72-74]

目前,在深度网络跟踪器性能提升方面已广泛应用多种先进技术(包括空间感知采样策略、区域生成网络、数据增强策略以及高效检测与尺度估计方法等),这些方法根据不同硬件配置被划分为实时跟踪算法。

该神经网络架构在平衡跟踪性能与效率方面展现出良好的效果,并且其设计初衷旨在使算法运行得更快且更具准确性。然而,在实际应用中发现大多数基于Siamese网络的目标追踪任务中采用离线训练策略是常见的做法,在这种情况下,在实际追踪过程中不更新目标模型可以显著提升追踪速度。关于基于Siamese网络的视觉追踪技术的具体实现及应用细节,则将在下一节中进行详细阐述。

2****基于相关滤波的无人机目标跟踪

受无人机自身特性的影响,在应用相关滤波追踪算法方面已显示出显著优势,并逐步应用于无人机领域。尽管基于相关滤波的各种追踪算法框架具有相似性,在每一种方法中依然蕴含着独特的创新性与鲜明的特点。本节深入探讨了8种具有创新性贡献的相关滤波追踪方法,并对各类算法的特性及其在UAV123数据集上的追踪效果进行了详细对比分析

表 2 比较CF类目标追踪算法及其在UAV123数据集上的追踪效果比较Tab.2 Comparative analysis of CF-based target tracking algorithms and their performance evaluated on the UAV123 dataset

跟踪算法 出版物 特征 尺度估计 帧率/(帧/s) 距离精度
DSST[19] BMVC 2014 HOG 尺度滤波器 85.43 0.586
SAMF[17] ECCV 2014 HOG+CN 尺度池 10.05 0.597
KCF[20] TPAMI 2015 HOG 单一尺度 611.65 0.523
SRDCF[21] ICCV 2015 HOG 尺度池 11.08 0.676
BACF[22] ICCV 2017 HOG 尺度池 43.45 0.660
STRCF[23] CVPR 2018 HOG+CN+Grayscale 尺度池 22.58 0.681
ARCF[24] ICCV 2019 HOG+CN+Grayscale 尺度池 40.36 0.667
AutoTrack[26] CVPR2020 HOG+CN+Grayscale 尺度池 48.21 0.689

表选项

由于结合深度特征的相关滤波器虽然在追踪速度上有所下降,在实际应用中仍具有重要的参考价值。表2着重列举了传统特征如HOG(直方图梯度)、CN(颜色名称)或灰度变换的相关滤波器。从表2的数据可以看出,在追踪精度方面与传统方法相比,SRDCF、BACF、STRCF、ARCF及AutoTrack均取得了显著提升与改进。与传统方法相比,SRDCF、BACF、STRCF、ARCF及AutoTrack在追踪精度方面均有显著提升与改进。但追踪速度有所降低。其中AutoTrack实现了兼具追踪速度与精度的最佳平衡状态。此外SAMF等方法则通过多维度特征融合以及尺度池估计策略的应用,在一定程度上提升了目标追踪的准确性与可靠性。就所讨论的各类滤波追赶方法而言,在保证实时性的同时(每秒约30帧),大多数方法均表现出了良好的性能

**2.1最小输出误差平方和(MOSSE)**跟踪算法

相关滤波跟踪算法的主要任务是解决符合特定要求的滤波器求解问题。2010年Bolme等[11]最先将相关滤波技术引入目标追踪领域,并发展出一种称为MOSSE(Minimal Output Squared Error, MOSSE)的目标追踪算法。这种追踪方法旨在训练一个能够实现循环相关输出与期望标签之间误差最小化的滤波器;其核心在于通过优化过程使得循环相关输出与期望标签之间的平方误差达到最低水平。这一优化问题可用以下数学表达式表示:

|

|(4)|
|---|---|

其中,** w** 为滤波器,** x** 为训练样本,** y** 为期望输出响应。

Bolme等[11]将其问题转换为频域,并将卷积运算转换为点积运算,在显著降低了计算复杂度的同时显著提高了计算速度。在频域中对变量_w_求导后获得了闭式表达式的解:

|

|(5)|
|---|---|

在模型更新阶段,该文令

将滤波器分割为分子部分_A_和分母部分_B_,这两部分分别执行迭代运算和更新操作,从而实现更为稳健的位置估计;其中η代表学习率参数;其更新方程如下所示。

|

|(6)|
|---|---|

在相关参数发生更新后,在新的下一帧中使用滤波器对样本** z** 进行处理以生成响应图,在该图中能够确定出当前目标的新位置,则该检测阶段的响应函数可表示为

|

|(7)|
|---|---|

值得注意的是,在目标跟踪领域中,MOSSE算法具有划时代的意义。它不仅提升了目标跟踪的速度至每秒600多帧,并且在面对光照变化和目标姿态变换时展现出较强的适应能力。这种改进有效抑制了传统方法中存在的目标漂移问题。

**2.2核相关滤波(KCF)**跟踪算法

该跟踪方法基于核心相关滤波器开发而成[44]。自其于2014年提出以来迅速引起广泛关注,并为后续多种基于判别相关滤波器的追踪方法奠定了理论基础。该方法采用了HOG特征替代传统特征,并提出了多通道样本训练的新策略:即通过将样本分割成多个区域并在每个区域中提取出31维特征来实现。该算法表现出良好的抗光照变化能力的同时追踪效率也很高

在训练阶段中,KCF算法通过将非线性回归问题映射至高维空间来处理,并将其转化为线性可分的问题。通过岭回归模型对滤波器进行参数优化后发现,在样本与目标标签之间构建函数f(x) = w·φ(x),使得平方误差最小化能够有效地实现滤波器的设计目标。用于滤波器设计的数学表达式是

|

|(8)|
|---|---|

其中, λ 为用于控制过拟合的正则化参数。

该算法利用核技巧将** w** 映射到高维空间,假设

求得** α** 解的形式为** α** = (K +λI)-1** y** ,引入循环矩阵特性,简化** α** 的解为

|

|(9)|
|---|---|

其中,** α** 为系数 αi 的向量形式,** K** 为核函数的矩阵表示,** I** 和** I** N 均为单位矩阵,

指的是两个向量之间的核相关。

KCF算法探讨了两类典型的核心相关函数:多项式核函数与高斯核函数。当两个单特征通道向量分别表示为 ** x ** 和 ** x' ** 时,其相应的核关联矩阵计算方法分别是什么。

|

|(10)|
|---|---|

当训练样本为多通道时,式(9)、式(10)可推广为

|

|(11)|
|---|---|

对于线性核,其表达式可表示成

|

|(12)|
|---|---|

在模型更新阶段之后,在当前帧的基础上调整滤波器参数 α 和样本数据 x 来优化当前帧的模型结构。其数学表达式为:

|

|(13)|
|---|---|

其中, η 为学习率参数。

最后一步中应用最新的参数设置进行检测工作,并计算出相应的响应函数;随后确定了响应峰值的位置,并基于此信息重新优化滤波器参数以更新模型;最终实现了对目标的精准跟踪效果。其数学表达式为R(f)

|

|(14)|
|---|---|

相较于其他方法而言,在精度与速度方面均有较大提升。该方法基于核技术以及循环矩阵对角化的特性,在运算流程上进行了优化设计。通过这些改进措施,在降低计算复杂度的同时也提升了整体性能。然而,在多尺度目标跟踪方面存在一定的局限性。

**2.3判别尺度空间(DSST)**跟踪算法

针对目标尺度变化导致的跟踪漂移问题,在复杂场景中

DSST算法也采用岭回归模型对滤波器进行训练,并且它们的回归方程具有类似的结构。

|

|(15)|
|---|---|

其中,在第 _{l} 个通道中分别代表着对应的滤波器 _{f}^{(l)} 和样本 _{x}^{(l)} ,而 _{g}^{(l)} 则被定义为期望的相关输出值;并且这些变量在维度上具有完全一致性和统一性

将问题转换到傅里叶域中求解,可得到使式(15)最小的滤波器为

|

|(16)|
|---|---|

其中F、G、X分别对应f,g,x在傅里叶域中的表示形式;即G为其实数部分与虚数部分符号相反的形式。

旨在降低在线学习任务中的计算复杂度。该算法通过将相关滤波器 F_l 的其中分子被设定为 A_{t,l} ,而分母被设定为 B_t ,分别进行更新的方式以期获得一个较为稳健的结果。其更新方程如 A_{t,l}B_t 所示。

|

|(17)|
|---|---|

其中, t 表示第 t 帧, t -1表示第 t -1帧.

最后一步中,在对样本** Z** 进行检测操作后会生成相应的输出结果。为了确定新的目标状态,在分析这些响应数据的最大值位置后会确定新的目标状态。其对应的数学表达式是:

|

|(18)|
|---|---|

在目标追踪领域中进行精确的目标尺寸估计一直是极具挑战性的研究课题之一。DSST算法以其简洁性和良好的可移植性著称,在应对尺度变化方面表现出色。此外,在解决尺度相关问题方面取得显著成效的SAMF算法[17](Simple Algorithm for Motion Focusing),该方法通过融合HOG(人类检测图像梯度)、颜色直方图(CN)以及灰度特征,并利用预先构建的尺度池实现对目标的自适应跟踪能力

**2.4空间正则相关滤波(SRDCF)**跟踪算法

为了使计算过程更加简便,在求解上述目标函数时将其转换至频域进行处理,在变换过程中需将图像窗口进行周期性拼接这会导致拼接后的图像在边界处出现不连续现象同时产生边缘效应影响目标跟踪的质量

为了有效缓解边缘效应的研究者们提出了一种名为SRDCF的空间正则相关滤波算法[21]。该方法通过引入空间正则化组件来实现对训练过程中滤波器系数的控制,并利用正则化权重施加惩罚以提高模型判别能力。“其优化问题已通过数学模型得以表达”。

|

|(19)|
|---|---|

其中每个训练样本对应一个非负数权重参数 αk ,其值大于等于零;其对应的正则化参数 w 赋予了调节作用;变量 t 被定义为总的样本数目;空间维度参数 d 则表征着各特征图的空间扩展程度;在式(19)中所涉及的空间惩罚项主要反映了各通道间的相似性约束。

利用帕萨瓦尔定理与循环矩阵性质,简化式(19):

|

|(20)|
|---|---|

Among them, W, D_k, and **D_{kl} are defined. Specifically, W is a block diagonal matrix, while D_k is a vector containing multiple sub-vectors D_{k1}, ..., D_{kd}. Each D_{kl} is a diagonal matrix whose diagonal entries are the elements of vector x_{kl}.

接着,将式(20)化解为

的形式,从而求得满足条件的最小值,其中:

|

|(21)|
|---|---|

在模型更新阶段,通过更新** A** t

两项对滤波器进行更新,该算法引入了学习率 η ≥0,更新公式为

|

|(22)|
|---|---|

在检测阶段中进行计算:最新的滤波器参数与样本之间的响应关系分析。通过确定这一关系中的峰值点即可获得新的目标定位坐标。其响应函数具有与前文所述算法类似的特性

之后,在此基础上进一步优化了SRDCF算法,并开发出了SRDCFdecon算法。该算法主要针对训练样本在在线跟踪过程中易出现损坏的情况,在目标模型与训练样本权值联合学习的过程中,在线追踪时采用动态调整的方法确定用于滤波器训练的样本权重,并非固定不变而是通过动态求解回归方程来确定。其中,在线追踪时采用动态调整的方法确定用于滤波器训练的样本权重,并非固定不变而是通过动态求解回归方程来确定。这种设计使得算法能够有效保障了高置信度帧的影响范围同时也在一定程度上降低了污染样本的影响范围

**2.5时空正则相关滤波(STRCF)**跟踪算法

SRDCF方法在引入空间正则的同时,并通过多组训练样本对滤波器进行联合训练。这种做法必然导致计算复杂度显著提升,并降低了实时跟踪性能。鉴于此,在单样本SRDCF算法中引入了时间正则化策略,并在此基础上提出了一种时空正则相关滤波(STRCF)算法,在提高跟踪精度的同时显著提升了运行效率。

STRCF算法在SRDCF基础上引入时间正则化,并采用与其相似的回归方程:

|

|(23)|
|---|---|

其中,||f -f t -1||2为时间正则化项,** f** t -1为 t -1帧时的滤波器信息, μ 为时间正则化系数。

该方法旨在显著提升目标跟踪效率,并通过加速问题求解过程实现快速决策。研究工作将原问题划分为若干个子问题,并假设f=q的基础上引入步长参数\gamma和拉格朗日乘子S来构建模型框架。

利用ADMM算法进行求解,子问题求解公式为

|

|(24)|
|---|---|

上述每个子问题都有闭式解,并能在较低迭代次数下实现较快收敛速度。与SRDCF算法相比,在引入时间正则项后无需全部之前的T帧信息即可完成训练阶段的任务计算需求;这一改进显著降低了内存消耗量,并加快了计算速率(可达30帧/s)。值得注意的是,在面对目标快速运动及较大的外观变化情况时(即较大视差条件下),STRCF算法表现出较强的时间稳定性

**2.6背景感知相关滤波(BACF)**跟踪算法

由于先前所采用的相关滤波方法仅专注于目标本身而忽视了其伴随环境的变化特性这一缺陷, 这必然会影响到跟踪效果的质量。针对上述缺陷, Galoogahi等[22]提出了一种称为背景感知相关滤波(BACF)的新算法, 该算法基于HOG特征提取机制, 动态地更新跟踪对象的内外部特征描述, 并提出了一种基于ADMM优化框架来计算滤波器参数。经过一系列实验验证, 该方法不仅显著提升了定位精度, 而且展现了较高的性能水平

该算法中多通道背景感知相关滤波器的训练公式为

|

|(25)|
|---|---|

其中Δτ_j表示循环移位操作,xk经过Δτ_j运算后得到的结果等于其本身进行j阶离散循环移位的效果;λ代表正则化系数, T代表序列长度;P是一个截取矩阵,在处理时用于从x**k中提取中间固定长度的部分数据

同样地,在提高计算效率的前提下

|

|(26)|
|---|---|

其中,

为辅助变量,

矩阵为分块对角矩阵,被定义为

作为标准正交矩阵,在傅里叶分析中用于将其他向量信号映射到频域区域,并且⊗表示为克罗内克积。

该文采用ADMM方法对问题进行迭代优化;通过引入增广拉格朗日乘子法将式(26)转化为更易处理的形式,并将其分解为多个子优化问题。

|

|(27)|
|---|---|

其中,

为傅里叶域的拉格朗日矢量,** I** K 为单位矩阵, μ 为惩罚因子。

BACF算法基于先前的相关滤波框架进行了改进,在循环矩阵采样区域内扩大了覆盖范围,并借助裁剪矩阵将原始样本分割为多个与目标尺寸一致的小样本集合;这些小样本均是由循环移位和平移裁剪而得,并且覆盖了更大的搜索空间并包含真实的背景信息;这种方法显著提高了训练滤波器所使用的样本数量和质量,并有效降低了边缘效应的影响;BACF算法框架作为相关滤波跟踪技术的重要里程碑之一得到了广泛认可

**2.7抑制畸变相关滤波(ARCF)**跟踪算法

基于相关滤波的跟踪算法研究在无人机视觉跟踪应用领域已取得了显著进展。然而,在无人机视觉跟踪场景中存在诸多复杂性和不确定性。由于飞行过程中的动态环境变化以及目标运动速度较快的特点,在实际应用中往往难以获得理想的视频质量。加之边缘效应等现象的影响,在目标边缘区域容易出现定位不准确的问题。此外,在实际追踪过程中还可能受到光照变化、障碍物遮挡等多种因素的影响,最终将不可避免地引入较多的背景噪声干扰。

为了解决这一问题,Huang等[24]提出了抑制畸变相关滤波(ARCF)算法,研究表明,在目标检测过程中,由于背景噪声、边缘模糊效应以及目标外观变化等因素的存在,会导致生成的响应图在某些区域出现变形或异常值,这些异常值实际上反映了外观模型与当前帧实际检测到的目标之间的相似程度,而这种变形会直接影响到目标定位的准确性.该算法在训练过程中的损失函数方程如下所示

|

|(28)|
|---|---|

其中,** B ** 代表裁剪矩阵,** D ** 则表示通道的数量,** k ** 和** k-1 分别代表第 k 帧与第 k-1 帧之间的关系,在公式中第三项是用于限制响应图变化率的一个正则化项, λ γ 均为正则化系数,而变量 p q **分别代表二维空间响应图中两个主峰之间的位置差,这一过程即为两个主峰位置重合时的空间平移过程。通常情况下,在深度估计过程中相邻两帧之间的几何畸变会导致它们的空间信息发生显著变化。在公式中第三项是用于限制响应图变化率的一个正则化项。通过调节这两个正则化系数λ与γ的大小,能够在模型训练过程中有效平衡各层特征之间的关系。值得注意的是,在这一过程中(即两个主峰位置重合时),模型能够更好地捕捉到图像中的几何畸变信息

在实现整体目标最小化的过程中, 旨在通过降低计算复杂度来提高计算效率, 将式(28)转换至频域, 从而降低运算复杂度:

|

|(29)|
|---|---|

其中,

为辅助变量, N 为** x** k 的长度,

用于表示移位信号的离散傅里叶变换,在基于已生成的前一帧响应图的情况下,则该量可被视为常数信号。

类似于BACF算法,在处理过程中首先将式(29)转化为增广拉格朗日形式,并利用ADMM方法将其分解为若干子问题并依次求解。其对应的增广拉格朗日形式为

|

|(30)|
|---|---|

其中,

为拉格朗日乘子, μ 为惩罚因子,** I** D 为单位矩阵。

实验证明,在绝大多数无人机数据集中应用ARCF算法均能取得显著的效果。该算法通过将提取的背景样本作为负样本参与模型训练与检测过程,并引入了约束响应图变化速率的正则化项以防止其突变

**2.8自动时空正则化(AutoTrack)**跟踪算法

同样,在无人机场景下也是一种改进的目标跟踪算法。Li等[26]提出了基于STRCF的一种在线自适应学习相关参数的方法。该方法能够自主地对预设参数进行持续更新与优化的同时引入了局部响应图与全局响应图,并分别动态调节空间权重与时间权重以充分挖掘隐含于响应图中的局部位质信息及整体特征信息。AutoTrack联合优化滤波器与时间正则化项的目标函数为

|

|(31)|
|---|---|

其中, ũ 表示自动空间正则化参数,

θt 分别表示期望的时间正则化参数和待优化的时间正则化参数。

与前述相关滤波算法求解过程相似,文[26]引入了一个辅助变量

将式(31)转换为频域后进行求解,并将其表示为增广拉格朗日形式之后,再利用ADMM方法进行求解

|

|(32)|
|---|---|

其中,

为拉格朗日乘子, N 为** x** k 的长度, μ 为惩罚因子,** F** 为标准正交矩阵。

通过基于ADMM的方法将增广拉格朗日形式的问题分解为多个子问题并进行迭代求解。因为该问题是凸的,从而使得通过ADMM实现最小化以获得整体最优解。

本文提出了一种基于自适应学习机制的空间与时间联合正则化方法R。该方法将空间局部响应变化量定义为空间的正则化手段,并将其纳入到网络损失函数中作为辅助项。具体而言,在每一步迭代过程中R被用来度量当前样本与其邻居样本之间的相似性程度,并以此来调节网络更新的方向及速度。此外,在网络优化过程中引入了一个新的超参数\lambda用于平衡各子任务之间的关系权重及损失函数的影响权重系数,在一定程度上改善了传统深度学习模型在处理小样本问题时的表现效果。为了进一步增强算法的整体稳定性,在训练阶段采用了一种新的迭代策略:即根据当前迭代次数动态地调整优化步长以避免出现梯度爆炸现象以及模型收敛过程中的振荡问题。

2.9****算法总结

以相关滤波为基础的目标跟踪算法体系中

然而基于相关滤波的目标跟踪算法难以应对快速缩放以及运动物体遮挡等难题,在面对快速缩放时该算法未能迅速调整外观特征从而造成估计偏差;当运动物体完全被遮挡并移出搜索区域后算法难以准确预测其位置进而导致追踪失败;低分辨率与小尺寸的目标容易引发训练样本不足的问题这会降低滤波器识别目标与背景差异的能力从而容易使追踪过程出现失误

3****基于深度学习的无人机目标跟踪

近年来,在深度神经网络技术不断发展的背景下

表 3 Deep learning-based target tracking algorithms and their configuration contrastsTab.3 Comparison of tracking algorithms based on deep learning

跟踪算法 出版物 主干网 帧率/(帧/s) CPU/GPU 编程语言
SiamFC[29] ECCVW 2016 AlexNet 58 Intel I7-4790K 4.00GHz CPU/GTX Tian X GPU Matlab
SiamRPN[33] CVPR 2018 AlexNet 160 Intel I7 CPU,12GB RAM/GTX 1060 GPU Python
DaSiamRPN[34] ECCV 2018 AlexNet 160 Intel I7 CPU,48GB RAM/GTX Tian X GPU Python
SiamRPN++[80] CVPR 2019 ResNet-50 35 N/A/Titan Xp Pascal GPU Python

SiamDW[35]在CVPR 2019年中采用了三种主流的深度学习架构——分别为ResNet、ResNext和Inception网络结构,并配合Intel Xeon CPU与GTX GPU的强大计算能力进行开发;而SiamFC++[81]则基于GoogleNet架构设计,在测试性能上达到9分(注:此处可能存在笔误应为"9"或其他数值);此外,在GPU性能方面,则采用了NVIDIA RTX显卡系列中的高端型号以提升计算效率。

表选项

根据表3的数据可以看出,在依赖GPU支持的环境下这些算法通常能够实现良好的实时跟踪效果。通过优化主干网络结构使其能够从简单的AlexNet向ResNet、Inception等复杂网络逐步进化从而在保证较高精度的同时也带来了更高的计算复杂度需求目前主流的深度目标跟踪框架多采用Python开发并基于OpenCV等库进行实现

**3.1全卷积孪生网络(SiamFC)**跟踪算法

可以说SiamFC算法是Siamese系列论文中的开篇之作。针对深度学习在目标跟踪中的数据不足以及处理速度较慢的问题,Bertinetto等人提出了一种名为SiamFC的新方法[29]。该方法突破了相关滤波器在跟踪领域的技术垄断,通过全卷积孪生网络对跟踪数据进行端到端训练,实现了结构简洁且具有高效处理能力的特点,如图2所示其具体的跟踪架构

|

|
|---|
|图 2 SiamFC跟踪算法框架Fig.2 SiamFC tracking algorithm framework|
|图选项|

SiamFC网络架构包含两个共享权重的分支,在目标检测领域表现出色。其中样本图像 Z ∈ R^{127×127×3} 用于跟踪目标,而搜索空间中的目标定位则由 X ∈ R^{255×255×3} 表示。具体而言,在每一步骤中我们都需要完成的任务是在搜索空间中确定目标的位置。具体而言,在每一步骤中我们首先使用相同的网络 φ 对样本图像 Z 和搜索空间 X 进行特征提取,并对两组特征图执行互相关操作以生成响应图 R。即通过卷积运算找出两幅图像中最相似的区域,并将此区域作为候选目标位置。响应值最大的位置对应于目标所在的位置。

该算法基于AlexNet网络进行特征识别,在设计架构时未添加Padding层,并且仅包含5个卷积层;其中除第五个卷积外的每一级卷积操作后均接有ReLU激活函数以引入非线性特性;SiamFC算法采用了离线训练策略以对深度网络进行学习过程;然而尽管其结构简单但通过巧妙设计实现了良好的平衡效果

**3.2孪生候选区域生成网络(SiamRPN)**跟踪算法

由于大多数深度学习追踪系统都会采用复杂的网络架构设计,其运行过程中的内存占用较高,因此难以实现实时追踪的目标

为了解决这一问题,Li等[33]提出了一种孪生候选区域生成网络(SiamRPN)作为解决该问题的核心方法。通过大量图像对进行端到端的离线训练,并在在线跟踪阶段采用单样本检测策略,从而无需进行在线微调和多尺度检测,在保证跟踪精度的同时显著提升了运行效率。该算法框架如图3所示。

|

|
|---|
|图 3 SiamRPN跟踪算法框架Fig.3 SiamRPN tracking algorithm framework|
|图选项|

该系统由孪生子网组件(基于Siamese架构)与候选区域提取组件(基于Region Proposal架构)构成。其中,在特征提取环节中采用了无填充设计的全卷积神经网路来处理目标样本图像及其搜索空间图像数据。候选区域提取组件则包含两个分支:一个是前景-背景分类分支;另一个是边界框回归分支。通过将两种输出结果进行融合处理后,则可同时获得跟踪目标当前位置及其尺寸信息。

尽管SiamRPN算法取得了显著的进步,在速度和精度方面表现突出;但受限于现有训练数据集的数量限制因素,在生成高质量的SiamRPN网络模型方面仍显不足;基于无人机数据集UAV20L进行测试时发现该算法输出的AUC值(Area Under Curve)仅为0.454;由此可见其性能仍有较大的提升潜力。

**3.3干扰物感知孪生网络(DaSiamRPN)**跟踪算法

针对SiamRPN算法的不足问题,Zhu等[34]提出了一种称为DaSiamRPN的跟踪算法。与原有方法相比,该算法在跟踪性能上进行了多项优化:首先,在模型训练阶段,该方法采用了ImageNet Detection和COCO Detection两大规模数据集,以显著提升正样本对的数量,从而进一步增强跟踪器的泛化能力。其次,为了解决样本不平衡导致的跟踪不准确的问题,在训练过程中加入了充足的同类别与异类别负样本对,这不仅有效避免了目标遮挡等情况下的漂移现象,而且使跟踪器能够更加专注于细粒度的目标追踪工作。最后,该算法还创新性地引入了运动模糊数据增强策略,并首次提出局部到全局搜索框架,从而实现了长时间目标追踪的效果

DaSiamRPN跟踪算法显著提升了跟踪器的泛化能力和判别能力,并使其不容易受到视频中其他物体的影响。该算法表现出良好的处理能力,在各种遮挡情况或目标出界的情况下的追踪效果均较为理想,并实现每秒160帧的实时追踪效果。

为了考察DaSiamRPN目标跟踪方法在无人机场景中的适用性,研究者分别对UAV123和UAV20L两个无人机数据集进行了相关实验研究。系统性地评估了该方法在上述两个数据集上的目标检测曲线图,并与其现有的先进目标跟踪方法进行了对比分析。实验结果表明,该方法能够有效识别无人机视频中的目标物体,并且能够较好地应对复杂的全遮挡与背景干扰情况。

**3.4更深更宽孪生网络(SiamDW)**跟踪算法

由于现有的Siamese系列网络多依赖于基础架构(如AlexNet),未能充分利用深度神经网络的巨大潜力。为此,Zhang等[35]提出了一种名为SiamDW的新架构,该架构旨在通过更为深广的模型实现目标跟踪目的。具体而言,研究者Zhang及其团队[35]深入探讨了当使用深度模型(如ResNet、Inception)替代传统浅层模型时所导致性能下降的根本原因,并在此基础上开发出了新型残差模块(Cropping-Inside Residual unit,CIR)。这些创新性设计有效地解决了深层模型中因填充等因素带来的挑战

文[35]在设计CIR模块时, 提出了四项关键标准以减少由结构因素导致的问题: 首先, 建议采用较小的时间步长; 其次, 输出特征的感受野应控制在样本图像面积的60%至80%; 此外, 在构建网络模型时需综合考虑时间步长、感受野大小以及输出特征数量等因素; 最后, 对于孪生网络架构, 建议去掉主干网中的填充操作步骤是有益的

文[35]基于其创新性的CIR模块思想开发了六种不同的主干网络架构。该系统中将CIResNet-22模块整合到SiamFC和SiamRPN框架中进行功能拓展。通过一系列详实的数据测试证实了该方法在性能上的显著优势。相较于现有的主流算法,在性能指标上取得了突破性提升,并且能够实现实时跟踪应用需求。

**3.5改进全卷积孪生网络(SiamFC+ +)**跟踪算法

当前的跟踪算法虽然通过综合运用多种技术手段实现了较高的追踪精度与追踪速度,但一定程度上忽视了跟踪问题固有的特性。为深入了解追踪问题的本质特征,Xu等[81]提出了一种改进型的全卷积孪生网络(Fully Convolutional Siamese tracker++),该算法基于SiamFC框架,在现有方法不足的基础上进行了多项优化:首先使其能够精确地区分出目标物体并排除背景干扰;其次有效地降低了假阳性结果的可能性;再者指出现有算法往往受限于数据分布的先验知识假设;最后通过引入评估质量分数分支协同作用下实现边界框的选择过程,进一步提升了追踪精度。

此外,在文献[81]中对现有的孪生网络跟踪器存在的不足之处进行了深入探讨,并通过在五个具有挑战性的数据集上的实验来验证所提出的准则的有效性。值得注意的是,在无人机场景中SiamFC++算法展现出显著的优势,并且特别适合用于无人机相关的应用场景

3.6****算法总结

近年来,在计算机视觉领域中对目标跟踪问题的研究主要集中在架构设计、主干网络构建、特征融合机制以及更新策略优化等方面,并对深度学习方法进行了深入研究。旨在使跟踪器能够学习多样化的表征形式,并有效提取出具有复杂性和抽象性的特征信息。相较于基于相关滤波的目标跟踪方法,在跟踪精度上表现更为优异的同时,研究人员期望能够开发出一种通用的深度学习目标跟踪算法,并在综合性能如精确度、速度和鲁棒性方面获得更显著的优势。

虽然深度学习追踪算法取得了突破性进展, 但大部分深度学习追踪算法采用离线训练的方式, 并且难以应对完全遮挡或退出视线的情况. 因此探索高效的神经网络在线训练方法至关重要. 同时, 由于样本不足的问题导致难以训练出高质量的深度网络, 并且容易产生过拟合现象. 此外, 现有深度目标追踪算法对硬件配置的要求较高, 在无人机上的普遍应用受到了限制.

4目标跟踪数据集和评价指标4.1****目标跟踪数据集

生成目标跟踪数据集并建立相应的评价指标是目标跟踪任务中的核心环节。其中,在模型训练与算法验证过程中得到了充分的数据支持

目前主要存在的跟踪领域通用数据集包括TrackingNet数据库(参考文献82)、OTB系列数据库(参考文献83-84)、VOT竞赛库(参考文献85)、NUS-PRO数据库(参考文献86)以及OxUvA数据库(参考文献87)等共五种类型的数据集合。在无人机拍摄的空中场景类目标跟踪中较为常见的研究方向主要包括VIVID项目(参考文献88)、VisDrone-2019比赛项目(参考文献89)、UCLA Aerial Event活动(参考文献90)、UAV123研究计划(参考文献91)、UAVDT项目组工作(参考文献92)以及DTB70基准测试系统(参考文献93)等多个子领域展开研究工作;这些研究方向均旨在通过优化无人机对地物的搜索与追踪能力提升算法性能表现;其中表4详细列出了各相关数据集在无人机目标跟踪任务中的对比分析结果

目前主要存在的跟踪领域通用数据集包括TrackingNet数据库[82]、OTB系列数据库[83-84]、VOT竞赛库[85]、NUS-PRO数据库[86]以及OxUvA数据库[87]等共五种类型的数据集合

表格 4 UAVs 目标追踪数据比较Tab.4 Data comparison of UAV target tracking datasets

| 数据集 | 提出年份 | 数据集描述 | 视频
数量 | 视频
总帧数 | 属性
数量 |
|---|---|---|---|---|---|

| VIVID[88] | 2005 | 多是从高空进行拍摄的相对时间较长场景 | 被跟踪目标为地面上的运动车辆
|UAV123[91]|2016|背景清晰且视角变化较多的短时彩色视频 |
|---|---|---|---|---|---|
| DTB70[93]|2017|平均时长约为7秒的复杂高空视频 | BUAA-PRO[94]这一数据集提供的是大规模的数据集采用像素级别的标注方式
| UAVDT[92]|2018|基于复杂环境的小尺寸目标密集分布区域的大规模短时视频 |

VisDrone 2018-2020 数据集(编号95)基于"Vision Meets Drone: A Challenge"竞赛展开研究工作,并专注于高精度短时彩色序列这一领域。
该数据集包含132个样本,并具有约1万零六百四十分之一千像素的空间分辨率。
总计有1组样本涉及无人机长时间目标跟踪任务。
VisDrone 2019-2020-L 数据集(编号89)作为无人机长时间目标跟踪任务的重要代表数据之一。
包含约8.万二千六百十分之一千像素的空间分辨率,并拥有相同数量的目标跟踪样本数量。
Small 90号数据集(编号96)则主要聚焦于航拍视频的相关研究工作。
它表明该航拍视频大多来源于其他现有数据集,并以短时彩色序列的形式呈现出来。

表选项

表4展示了无人机从高空拍摄目标所形成的视频序列集合。其中VIVID、UAV20L以及VisDrone 2019/2020等数据集专注于长时跟踪特性,在此过程中将所有观察到的目标运动特征划分为光照变化、尺度调整、快速移动、视角变换以及遮挡等多个类别。UAV123特含123个视频片段及超过百万帧图像样本,在无人机目标跟踪领域具有重要地位。 BUAA-PRO则采用了像素级别的标注方式,并专门用于解决追踪区域内不可避免存在的非目标元素问题。此外该集合还包含短时与长时两种不同类型的视频序列 VisDrone源于"Vision Meets Drone:A Challenge"竞赛项目,并将所有视频均为高精度彩色序列 并经过细致标注处理 Small-90与Small-112两个专门用于小目标追踪的数据集合则由AimNet团队开发完成

4.2****评价指标

为了评估跟踪算法的效果优劣,在定性和定量两个维度对结果进行评价,并对其鲁棒性特性展开分析是必要的步骤。衡量视觉跟踪系统的性能优劣主要依据两组核心指标体系:即基于距离精度(distance precision, DP)、重叠精度(overlap precision, OP)等反映系统定位能力的关键参数;以及基于时序鲁棒性评估(temporal robustness evaluation, TRE)和空间鲁棒性评估(spatial robustness evaluation, SRE)等反映系统稳定性与适应性的量化指标体系。此外,在具体应用中还需要结合不同阈值设置下系统运行的表现特征开展比较分析以确保系统的稳定性和可靠性

距离精度可通过计算中心定位误差(CLE)来实现。具体而言,在每帧中先计算算法估计的目标中心位置与人工标记的真实中心位置之间的欧氏距离,并记录其数值大小;随后统计所有满足上述条件(即该距离小于给定阈值)的视频帧数,并将其占总帧数的比例作为衡量评估依据。

|

|(33)|
|---|---|

其中DP代表距离精度值;设_N_为视频总帧数;设_N_CLE≤th0为满足中心定位误差小于给定阈值的所有视频帧总数

涉及中心定位误差的问题,在空间坐标系中进行分析时会遇到以下情况:其中(x, y)表示估计中心位置坐标的变量,并且其中(x 0, y 0)则代表实际存在的中心位置坐标的数值;设th0为预先设定的一个阈值参数

重叠率 通过计算重叠得分(overlap score, OS)来评估。具体而言,在每个视频帧中,我们首先对算法估计的目标区域与人工标注的目标区域进行匹配程度的评估,并记录其重叠得分OS。随后统计所有视频帧中匹配程度超过设定阈值的比例。

|

|(34)|
|---|---|

其中, OP代表重叠精度值; 在视频处理中,_N_被定义为视频总帧的数量; 当计算出的_N OS≥th1时, 表示该帧满足重叠得分高于设定阈值的标准, 此时会进行OS计算得到

为算法估计的目标区域, r g为人工标注的目标区域,th1为给定阈值。

用于时序鲁棒性评估的方法是通过设定不同起始帧来进行初始化操作,并以此为基础对算法性能进行全面考察的一种技术手段。具体而言,在实施过程中首先选取不同起始帧来进行目标跟踪操作,并基于这些起始帧对应的人工标注样本进行初始化设置;随后观察并验证算法的跟踪效果;最后计算并汇总所有实验结果的平均值以获得最终的时序鲁棒性评估指标数值。

空间鲁棒性评估机制 通过设定多组不同目标边界框在起始帧中进行初始化参数设置,并对算法运行效果展开性能验证。具体操作流程如下:首先,在初始帧的基础上对目标区域实施轻微平移或尺度缩放处理;随后,在变动后的帧基础上重新设置初始参数;接着通过追踪效果验证该算法的适应能力;最后计算所有测试结果的平均值作为该评估指标的结果。

精度图 精度图(precision plot)展示了在设定不同阈值时中心定位误差的表现,在每个阈值点上统计满足特定条件的有效帧数占总帧数的比例。随着设定的不同阈值范围而变化从而生成了精度曲线图。该方案利用中心定位误差指标来评估跟踪目标的位置精度然而该方法未能反映出目标尺寸和形状的变化情况。

成功图 成功图(success plot)展示了不同阈值(取值范围为0至1)下重叠得分对应的满足条件的帧数占总帧数的比例。由于各阈值对应的百分比有所差异,在此基础上绘制出成功的曲线图。该方法通过预测框与真实框之间的重叠程度来反映目标尺寸及其变化情况,并以此评估跟踪效果。

5****未来研究展望

近年来,在无人机视觉目标跟踪领域经历了显著的进步之后,在鲁棒性方面也有所提升。然而,在真实空中场景中面临多重因素的挑战:快速尺度变化、完全遮挡以及低分辨率等因素共同作用下带来了负面影响。这些挑战导致估计误差或目标丢失问题的存在。基于上述问题特点与技术瓶颈,在无人机视觉目标跟踪领域提出了相关发展趋势研究课题

现有的无人机目标跟踪算法主要针对的是视野范围内可观察的目标问题。然而,在无人机实际飞行过程中常遇到的目标是部分或全部被遮挡、甚至超出视线范围的情况。为了使Tracking器能够快速适应不可见的目标环境,在线训练效率与丢失后的重建机制的有效性对于提升整体性能至关重要。鉴于现有的目标样本数量有限,在实现全场景下追踪效果的提升仍需进一步深入研究。

针对无人机在空中的Tracking场景中存在以下特点:其一是小尺寸的目标难以有效识别;其二是多干扰源使得特征分离困难;其三是基于传统特征提取方法难以满足实时性要求。针对这些问题,在深度学习算法中可以通过结合增量学习方法提升性能;此外还可以采用迁移学习策略增强模型泛化能力;并利用对抗训练技术优化分类效果。然而由于传统深度网络架构存在计算复杂度高且内存占用大的问题;因此需要探索一种结构简洁且计算复杂度较低的目标跟踪模型以满足实际应用需求

目前大多数用于无人机视觉的目标跟踪算法主要针对单一挑战进行短时跟踪(例如,在光照变化、缩放比例调整或运动模糊等领域仅能获得较好的追踪效果),难以实现多个挑战环境下的长时期目标追踪。在无人机视觉系统中由于视角变换、光照条件波动以及物体外观和尺寸的变化等多种因素的存在系统往往容易受到多重干扰因素的影响因此构建能够在复杂环境下稳定运行的目标追踪系统是一项亟待解决的关键课题。

现有研究主要聚焦于单架无人机的目标跟踪算法。受限于单架无人机在检测范围、视野角度等方面的限制,在场景理解能力方面往往存在不足[1]。这种缺陷使得基于单架无人机的目标跟踪难以实现持续精确的运动目标追踪[2]。相比之下多无人机协同目标跟踪系统能够有效弥补单架无人机在局部信息提取与全局信息识别方面的不足从而显著提升目标跟踪的准确性和效率[3]。因此研究者们值得深入探索如何通过融合多架无人机的目标观测数据建立科学合理的多无人机协同目标跟踪算法以解决这一技术难题

6****结论

在民用与军事领域中执行搜索、侦察、救援等任务之前的是无人机的目标追踪作业,在这一领域内有着重大的研究价值。本文首先对无人机视觉目标追踪领域的经典追踪方法进行了概述,并特别提到了两种主要类型:一种基于相关滤波器的方法(即Correlation Filter-based Tracking),另一种则采用深度学习技术(Deep Learning-based Tracking)。分别阐述了这两种方法在模型架构上的核心设计思路,并分析并指出了每种方法的独特之处及其所取得的研究成果。比较分析后得出了不同方法在实际应用中的表现差异。进一步列举了一些关键的数据集与评估标准。最后探讨了一下未来这一领域可能的发展方向。

全部评论 (0)

还没有任何评论哟~