LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking(论文翻译)
目录
摘要
1.引言
1.1 贡献
2.相关工作
2.1 密集基准
2.2 其他基准
3.提出的LaSOT基准
3.1 设计原则
3.2 数据收集
3.3 注释
3.4 属性
3.5 评估方案
4.评估
4.1 评估指标
4.2 评估跟踪器
4.3 按照方案I的评估结果
4.4 按照方案II的评估结果
4.5 在LaSOT的再训练实验
5.结论
摘要
本文引入了LaSOT——一种高质量的大规模单目标跟踪基准算法。该基准包含了1400个不同序列,在总共有超过350万帧的数据中进行评估。每个帧都被精确地标记了边界框以确保数据质量,并经过人工标注处理使其成为当前领域中最大的注释密集型跟踪基准之一。研究发现,在这种复杂的环境下测试追踪性能具有重要意义:同一物体可能暂时消失后重新出现在画面中这一现象可能导致追踪算法出现偏差或丢失目标特征的情况较为常见。为此我们通过提供额外的语言规范来丰富该基准系统旨在鼓励研究人员探索基于自然语言特征的新型跟踪方法并进一步提升算法性能
1.引言
在视频监控、机器人技术及人机交互等多个领域中,视觉跟踪被视为计算机视觉中的一个关键问题。其主要目标是在视频的第一帧中精确识别并定位任意目标[32,47,54]。随着该领域取得显著进展,在这一过程中已开发出多种多样化的算法。然而,在客观评价现有跟踪算法及其在不同跟踪器间的比较方面存在明显局限性:第一,在现有的基准体系下对新算法进行深入研究受到严格限制;第二,在现有基准体系下对新算法性能进行全面评估也面临诸多挑战;第三,在现有基准体系下对新算法进行全面优化同样充满困难;第四,在现有基准体系下对新算法进行全面改进也面临着诸多障碍;第五,在现有基准体系下对新算法进行全面评估也面临着诸多难题;第六,在现有基准体系下对新算法进行全面测试也面临着诸多困难;第七,在现有基准体系下对新算法进行全面验证也面临着诸多挑战
低分辨率 的细节中也蕴含着丰富的信息。深度表示作为现代目标追踪算法的核心技术之一,在实际应用中展现出卓越的表现能力。然而,在大规模的目标追踪数据集尚未得到广泛应用的情况下(如图1所示),基于专门用于目标追踪的对象检测系统(如[46]和[18])进行深度特征提取仍然面临诸多挑战。现有的公开数据集往往仅包含约400个左右的目标追踪序列(如图1所示)。因此,在缺乏统一的大规模基准库的情况下(如图1所示),研究人员不得不依赖于基于图像分类预训练权重(如[46]和[18])的方法来进行深度特征提取(如图2所示),或者采用基于视频目标检测框架的方法(如[45]和[43])进行深度特征学习(如图3所示)。这种做法虽能取得一定效果(如图2所示),但容易导致次优的表现能力(如图3所示)。此外,在评估系统性能时必须建立一个更大规模的标准基准库才能获得更有参考价值的结果

缺少高精度的密集标注。
对于视频跟踪任务而言,在每一帧上进行高密度(即密集)标注非常重要。
它们的作用主要体现在三个方面:
a) 它们能够显著提高评估结果的准确性和可靠性;
b) 它们为训练跟踪算法提供了丰富的训练样本;
c) 它们在连续的关键帧之间提供了丰富的时序背景信息。
然而,在大规模和长时期视频跟踪领域中的一些最新基准却未能满足这一需求:
- 例如,在[41]和[51]等文献中提出的某些方法中,
- 他们的标注方式要么是半自动化的(比如基于跟踪算法自动生成),要么仅限于稀疏标记(每隔30帧标记一次),
- 这种做法严重限制了这些方法的实际应用范围。
短期跟踪 。预期的追踪器能够在相对较长时间内识别目标对象(当目标暂时退出画面后又重新进入视野时)。然而,在现有的基准测试中(如图1所示),大多数研究集中在短期内的问题上,在每秒30帧下处理约20秒(即600帧)的时间段内,并且假设在每帧视频画面中都会有待追踪的目标出现。这种基于短暂追踪的数据集评估结果可能无法准确反映实际应用场景下的追踪效果。
类别偏见 。具备可靠跟踪能力的目标应表现出无明显偏好(即对目标所属类别的归属关系无显著影响)的能力特征。这种特性不仅体现在算法设计阶段(参见Tab1),也贯穿于系统的评估环节(即在测试系统性能时);为了保证公平性与可比性,在设计与测试过程中都应尽量避免使用可能导致偏倚的数据集或者算法结构。(但目前大多数基准测试仍存在严重不足之处)

在文献研究中 已有诸多数据集被提出 专门针对不同场景进行了研究 其中用于长期跟踪的研究方向主要参考了文献[39,51] 而大规模目标跟踪则主要依赖于文献[41] 同时 精确密集标注的数据集则集中体现在文献[52,35,25]. 然而 现有方法在某些方面仍存在不足 此背景下 提出了LaSOT方法
1.1 贡献
以这些动机为基础, 我们向社区提供了包含多种贡献的大规模单目標跟踪系统(LaSOT)的新基准.
1)LaSOT由1400个视频组成,平均每个序列2512帧。每一帧都经过仔细检查和手动标记,并在需要时对结果进行视觉上的双重检查和更正。这样,我们生成了大约352万个高质量的边界框注释。此外,LaSOT包含70个类别,每个类别由20个序列组成。据我们所知,LaSOT是迄今为止最大的基准,拥有高质量的人工密集标注用于目标跟踪。通过发布LaSOT,我们的目标是为跟踪算法的开发和评估提供一个专用平台。
与现有的数据集相比, LaSOT不仅包含视觉边界框标注这一特性,还包含丰富的自然语言规范.近年来研究表明,该方法在包括视觉跟踪在内的多种视觉任务中表现出色([21,31]).通过这一做法,我们的目标是鼓励并推动研究者探索如何将视觉特征与语言特征相结合的方式,从而实现更为鲁棒的跟踪性能.
旨在评估现有跟踪器并为LaSOT提供广泛基准的实验研究中,我们测试了35个典型实例在不同协议下的运行情况,并运用多种定量分析方法对其性能进行了详细考察。
2.相关工作
随着跟踪界显著发展,在过去几十年里出现了大量新型的追踪技术和基准标准。在本节中重点探讨与我们的研究相关的追踪基准,并通过查阅文献综述[32,47,54,30]来深入了解追踪算法的基本原理。
为了解决系统回顾问题, 我们特意将跟踪基准划分为两种类型: 其中一种是密集型人工标注(缩写为Dense Annot),另一种则是稀疏且/或半自动化标注. 接下来我们将分别深入探讨这两个类别.
2.1 密集基准
该密集跟踪基准为每个视频序列提供了密集的边界框注解。在保证高质量的前提下,在视觉跟踪领域中使用的包围盒通常需要手动标注,并经过严格验证。在执行视觉跟踪任务时,在训练与评估跟踪器的过程中都需要这些高度精确的标注信息。目前广泛采用的Dense基准包括:OTB系列中的版本52及以后版本(编号为53)、TC-128系列中的第35版;VOT系列中的第25版;NUS-PRO系列中的第28版;UAV系列中的第39版;NFS系列中的第14版以及GOT-10k系列中的第22版。
OTB 。最初,在 OTB-2013[52] 中首次基于采集了每个 frame 中带有手动标注边界的视频片段来构建测试数据集。这些视频片段总共包含了 51 组这样的样本,并按照 11 个不同的属性特征进行了分类标记以便后续追踪性能分析的需求。随后,在此基础上又增加了另外 50 组新的测试视频片段使得研究者将 OTB-2013 扩展到了更大的规模 OTB-2015[53]中
TC-128 。TC-128[35]包括了专为评估颜色增强型跟踪器而设计的128个视频样本。这些样本具备OTB[52]中类似的属性特征。
VOT 。该算法基于第25次迭代设计了多组跟踪挑战赛,每组挑战赛包含了大量不同场景下的视频序列,旨在快速且高效地测试跟踪算法的表现.VOT数据集通过多维度标注的方式对视频帧进行了详细标记.
NUS-PRO 。该数据集基于编号为[28]的NUS-PRO项目包含了总共365个针对人体及刚性目标跟踪的观测样本。每个样本都附带了关于物体位置及其遮挡程度的具体标记信息。
Drone(无人机)通常指... UAV 作为基础平台... UAV 项目中采用两种不同的数据集:一个是具有丰富特征的145维向量数据集...
NFS 。NFS[14]包含了一组共100个不同帧速率为240帧/秒的序列,并旨在探究其外观变化对其追踪性能的影响。
GOT-10K 。GOT-10k[22]包含10,000个视频,旨在为跟踪器的开发和评估提供丰富的运动轨迹。
属于密集跟踪数据集领域的主要方法之一的是LaSOT。相较于其他序列而言,在总帧数上占据优势的是LaSOT,在这一领域内它是最大的,在总帧数上占据了最多的份额——达3520000帧(约为352万帧),其平均序列长度达到了2512帧(约)。此外,在提供视频描述方面也具有显著差异性:具体来说,在提供视频描述这一方面上做了大量工作以提高准确性的是 LaSOT;而其他视频样本则未做此类工作。通过表1可以对比分析 LaSOT 与其他现有密集基准的表现情况
2.2 其他基准
除了密集的跟踪基准之外,还存在其他基准,这些基准可能不能为每个帧提供高质量的注释。取而代之的是,这些基准被稀疏地(例如,每30帧)注释或由跟踪算法(半自动)标记。这类基准的代表包括ALOV[47]、TrackingNet[41]和OxUvA[51]。ALOV[47]由标记在14个属性中的314个序列组成。ALOV不是密集地为每个帧添加注释,而是每5帧提供一次注释。TrackingNet[41]是通过选择30K个视频的视频对象检测基准YT-BB[43]的子集,每个视频由跟踪器注释。虽然在OTB 2015[53]上,用于标注的跟踪器在短时间内(即1秒)被证明是可靠的,但在更难的基准上很难保证同样的性能。此外,TrackingNet的平均序列长度不超过500帧,在长期场景下可能无法体现跟踪器的性能。OxUvA[51]也来自YT-BB[43]。与TrackingNet不同,OxUvA专注于长期跟踪。它包含366个视频,平均长度约为4200帧。然而,OxUvA的一个问题是它没有在连续的帧中提供密集的注释。OxUvA中的每个视频每30帧被注释一次,在开发跟踪算法时忽略了连续帧之间丰富的时间上下文。
尽管标注成本有所下降,但对这些参考集的评价可能无法真实反映跟踪算法的实际性能。此外,在需要从注释中学习时态语境的追踪器方面可能会遇到问题:由于这些基准测试中的时态语境可能因注释密度低而丢失,或者由于潜在不可靠的注释可能导致不准确的结果。相比之下,LaSOT提供了大量具有高质量密集边界框注释的序列集(sequences),这使得它更适合开发高质量深度跟踪模型,并在实际应用中评估长期跟踪性能。
3.提出的LaSOT基准
3.1 设计原则
LaSOT的主要目标是为社区创建一个专门的数据集, 旨在训练和评估跟踪器. 在构建过程中, 我们遵循了以下五个原则: 大规模, 高质量的密集标注, 持续追踪, 均衡分类以及多维度标注.
规模宏大
- 高质量且细致的标注方案。在介绍相关技术背景时,在现有研究的基础上提出了该方法的核心创新点及其优势特点,并结合实际应用场景进行了深入分析与论证。此外,在该方法中引入了一种新的特征提取框架与匹配机制以进一步提升性能表现
3)持续监控野外动物的行为模式。相较于短时间的跟踪,长期跟踪能够更全面地评估野外监测设备的真实效能。确保每条记录均达到至少1,000帧观察数据,并与现有的基准系统(LaSOT)进行对比分析。
无论目标对象属于哪种类别,在LaSOT中我们精心挑选了涵盖70个类别的对象集合,并确保每个类别内的视频样本数量保持一致。
5)全面标注 。作为一项复杂的技术挑战,关注最近关于自然语言规范的改进动态。以促进更多探索为目标,LaSOT的一个核心原则是向视频提供视觉与语言双重标记方案。
3.2 数据收集
我们所设计的基准集涵盖了不同语境中的各类物体类别。具体而言,LaSOT包含70个不同的物体类别。其中大部分是从ImageNet[12]中的1,000个主要类别中选择出来的;只有少数例外(如无人机)是特意挑选以满足流行追踪应用的需求。与现有的仅约30个且分布不均衡的传统密集基准不同,在该基准集对每个类别的样本数量进行了平衡设置以减少潜在分类偏差的可能性。数据集的具体细节可参考补充材料部分。
在LaSOT中选定70个典型对象类别后,我们从YouTube平台获取了每个类别的教学视频.最初阶段,我们成功收集到了5千多支训练样本.综合考量跟踪效果与LaSOT的设计理念,最终筛选出14百个高质量的样本序列.然而,由于存在大量干扰信息,这些序列不具备直接用于跟踪任务的条件.例如,在运动员类别(如足球运动员)的教学片段中,通常会在开篇展示运动员的基本信息,这对于后续的精确跟踪并不适宜.因此,我们在每条教学片段中精心剔除这些不适用的内容片段,并从中提取出可用于目标追踪的有效子序列.此外,值得注意的是,LaSOT中的每一类目标由2十个代表性实例构成,这不仅体现了类别的内在平衡性,也为不同场景下的目标检测提供了丰富的素材库.
基于Creative Commons授权范围内,在YouTube上收集了超过一千四百个序列和三千五百二十万帧数据构成了一个大型数据集
3.3 注释
为了确保一致性的一致边界框标注,在本研究中我们制定了确定性的标注策略方案。针对具有特定跟踪目标的目标,在每一帧处理时会自动调整并绘制/编辑其边界框作为最紧右界以便适应目标的所有可见部分;相反地,在无法满足这些条件的情况下(例如超出视图范围或被物体遮挡),系统赋予该帧一个超出视图范围或被物体遮挡的位置标记。这一策略无法确保最小化方框内的背景区域尽管如此但提供了高度一致的一致注释这一注释对于动态学习而言相对稳定
尽管上述策略通常非常有效,在大多数情况下都能取得良好效果

序列的自然语言规范通过描述目标的颜色、行为以及所处环境的句子来体现。在LaSOT系统中,我们特意为每段视频准备了1400条描述性语句,这些语句能够有效辅助追踪操作完成。特别提醒大家注意的是,在追踪任务中,'这里'指的是整个段落所涉及的内容,因此理解准确至关重要。举个例子来说吧,在这种情况下,'这里'指的是当追踪器生成进一步处理建议时,我们需要通过'这种'方式来减少潜在歧义,从而提高追踪效果。
构建高质量的密集跟踪数据集是一项费力的工作,其中最主要的付出是人工标注工作以及双重检验与修正。为此,我们组建了一个名为"标注队伍"的人才库,其中包括了优秀学生以及约10名志同道合者。每个视频都会经过两个阶段的人工标注流程:第一阶段为"标签阶段",第二阶段为"验证阶段"。“标签阶段”由一名志愿者负责绘制目标边界框,而"验证阶段"则会安排3至5位不同领域的标注人员对初步结果进行校验与微调。“验证阶段”的主要职责就是评估这些批注结果是否得到了所有参与者的统一认可,如果未能获得统一认可,则会重新提交给同一阶段的人员进行修正。
致力于最大限度提升标注质量的过程中

3.4 属性
为了深入探讨跟踪器性能的多维度特征,在实验中我们采用了14个关键属性对每一段序列进行分类标记。这些特性包括光照条件变化特性(IV)、完全遮挡特性(FOC)、部分遮挡特性(POC)、形变特性(DEF)、运动模糊特性(MB)、快速运动特性(FM)、比例缩放特性(SV)、相机运动特性(CM)、旋转特性和旋转(ROT)以及背景复杂度特性(BC)。此外还包括低分辨率特性和分辨率相关性特性(LR)、视角变换特性和空间位置变换特性(VC)以及比例缩放变换特性和纵横比变化特性(ARC)。在选项卡中详细定义了这些特性的具体含义与应用范围。图4(a)展示了各属性对应的视频分布情况。

从图4(a)中可以看出,在LaSOT算法中占据主导地位的主要挑战因素包括比例变化(SV与ARC)、遮挡(POC与FOC)、变形(DEF)以及旋转(ROT),这些都是在实际应用场景中追踪所面临的重要困难之一。此外,在图4(b)部分展示的是LaSOT算法与其竞争对手OTB2015[53]以及TC-128[35]在重叠属性方面的对比分析。从数据图表可以看出,在涉及比例变化的应用场景下,仅通过LaSOT算法就可以涵盖超过1300个视频序列的内容。相比之下,在规模变化方面仅包含不到70个视频序列的传统跟踪算法(如OTB-2015与TC-128)显得相对较小。值得注意的是,在超出视野范围的属性维度上,则有477个序列的数据样本可供研究者参考分析。

3.5 评估方案
虽然未采用LaSOT的技术限制条件,在不影响系统性能的前提下我们制定了两种评估协议用于跟踪算法性能测试并对其进行了详细分析
方案 I 被命名为方案 I。
在方案 I 内部规定了实验方法。
在该框架下, 我们采用了全部 1400 个测试样本用于性能评估。
研究者可以根据实际需求选择适合的研究场景。
协议 I 的目标是全面评估追踪器的表现。
方案II中,我们将LaSOT划分为训练集和测试集,并遵循帕累托法则(即80/20法则),从每个类别选取其二十个样本中的十六个作为训练样本,剩余则作为测试样本。具体而言,我们的实验设置包括总共一千一百二十条每秒二百八十三万像素左右的视频序列以及约两百八十条每秒六十九万像素左右的序列作为测试样本集合。随后我们将在上述提供的测试样本集合上对追踪器进行评估工作。该方案旨在通过提供丰富的训练数据与充足的数据量来提升追踪器性能
4.评估
4.1 评估指标
根据OTB-2015这一流行追踪协议(如参考文献[53]所示),我们对两种追踪协议下的多种跟踪算法进行了系统性比较分析,并从精确度、归一化准确度以及成功命中率等多个维度对其性能表现进行了全面评估。
通过将跟踪结果与实际边界框的距离(以像素计)进行比较来确定精度。采用该指标作为基准对不同追踪器进行评估,并根据设定阈值(例如20像素)来进行排序。值得注意的是,在评估追踪效果时,在目标大小和图像分辨率变化的情况下这一指标表现不稳定因此采取了标准化措施基于此其曲线下面积(AUC)被用于评估基于此我们会在指定范围内(此处指定了从0到0.5的区间)比较各算法性能具体而言这些算法依据其AUC值(范围在0到1之间)来进行性能排序并请参考文献[41]中的相关内容了解详细信息。根据追踪结果与实际目标区域的交并比(IOU)作为成功的标准这些算法依据其AUC值(范围在0到1之间)来进行性能排序并请参考文献[41]中的相关内容了解详细信息。
4.2 评估跟踪器
在LaSOT基准测试中,我们对35种算法进行了系统性评估以建立广泛的性能基准集。这些算法主要包含以下几大类:第一类是基于深度网络的跟踪器(如MDNet[42]、Traca[5]、CFNet[50]等),第二类是基于手工设计特征的相关滤波器(如ECO[7]、DSST[8]等),第三类是基于深层特征的方法(如HCFT[37]),第四类是采用正则化技术提升性能的方法(如BACF[15]),第五类是基于集合方法的跟踪算法(如PTAV[13]),第六类是稀疏表示方法(如L1APG[2])。表3系统地总结了这些跟踪算法及其所采用的核心技术和搜索机制。

4.3 按照方案I的评估结果
整体表现 。方案I 旨在对LaSOT的所有1400个视频进行全面评估。所有跟踪器均按照原有配置进行测试,并未做任何改动。我们采用准确率、归一化准确率以及成功率等指标在OPE中进行了结果展示(见图5)。其中MDNet获得了最高准确率为0.374、成功率达0.413的优异成绩;而VITAL则以较高的归一化准确率为0.484获得最佳表现。值得注意的是MDNet与VITAL均采用了在线训练的方式,在计算成本以及运行速度上均存在明显劣势。相比之下SIMAFC采用了离线学习的方法从大量视频中训练匹配函数,在保证了计算效率的同时实现了更高的准确度(分别为0.341的准确率、0.449的归一化准确率及0.358的成功率)。相比而言ECO的表现相对较为落后,在该指标下的得分仅为0.298(对应归一化得分与成功率分别为0.358)。由于其无需耗时的在线模型适应过程SIMAFC能够实现真正的实时高效运行。

与现有密集基准(如OTB-2015[53])相比而言,在LaSOT上追踪性能出现明显退步的原因在于其面临的非刚性和复杂挑战因素。基于图5的研究发现,在前七个追踪器中普遍采用深度特征这一现象揭示了一种在外观变化处理方面具有显著优势的方法论框架。
基于属性的表现 。针对现有跟踪器面临的多类挑战,在14个关键属性维度上进行了系统性评估。

从定性角度对多种跟踪器进行分析,并为其后续研究提供参考。我们展示了六种具有代表性的跟踪器——MDNet、SiamFC、ECO、PTAV、Staple和Meem——在图7所示六个典型困难挑战中的表现结果。这些挑战涵盖了快速运动的情况、完全遮挡场景以及视线外的情况(如视频Yoyo-3和Goldfish-4)。针对这些情况提出了解决方案:利用实例特定的检测器来进行目标定位以实现后续追踪。然而,在低分辨率视频中出现偏移的问题主要源于小目标难以被准确表示这一现象。基于深度特征设计的跟踪方案可采取多尺度特征整合的方法来增强表示能力。对于长宽比变化较大的视频序列而言,在现有方法难以有效处理的情况下(要么忽略该问题要么采用随机搜索或金字塔策略等简单方法),可借鉴基于深度学习的目标检测的成功经验来减少长宽比变化带来的负面影响(如通过改进深度特征表示)。此外,在存在复杂背景干扰的情况下(如视频分辨率较低),由于目标与背景之间的模糊界限难以区分而导致追踪出现漂移现象。对此可能采取的一种解决方案是利用上下文信息来提高目标与背景区别的清晰度
4.4 按照方案II的评估结果
在协议II中,我们将LaSOT划分为训练数据集与测试数据集两部分。研究人员可利用训练数据集中获取的目标序列来开发其目标追踪器,并可在测试数据集中检验其追踪效果的表现。为了在测试数据集中建立基准并进行比较,我们进行了针对35种追踪算法的系统性评估工作。每个被评估的目标追踪器均直接采用该算法进行评估,无需任何额外修改或重新训练过程支持。评估结果展示于图8中,具体指标包括精密度(Precision)、归一化精密度(Normalized Precision)以及成功率(Success Rate)。观察结果与协议I一致,其中MDNet与VITAL展现出最佳性能,分别获得0.373与0.360的精密度得分,归一化精度得分为0.46与0.453,成功率分别为0.397与0.391。值得注意的是,SiamFC在精确度得分上略低于前两者,但在运行速度方面却表现出显著优势,甚至实现了实时运行速度水平,在效率与准确性之间达到了良好的平衡状态鉴于篇幅限制因素,关于针对LaSOT测试集中目标追踪器基于属性特性的深入分析建议读者参考补充材料

除了对每种跟踪算法进行精确评估之外我们在LaSOT训练集中实施了针对两个具有代表性的深度追踪器MDNet[42]和SiamFC[4]的二次优化并对其进行了测试。测试结果表明在未经二次优化的情况下这些追踪器展现出相似的效果一个潜在的原因可能是由于我们的二次优化未能遵循原始作者设定的一致参数设置。由于LaSOT通常比以往数据集更具挑战性(例如所有序列均为长序列)这可能意味着需要特别设计配置以应对这些挑战我们将这部分内容作为未来研究的一部分留待探讨
4.5 在LaSOT的再训练实验
基于LaSOT的数据集对SiamFC模型进行了重训,并以此展示如何通过增加数据量来提升深度学习追踪器的效果。详细列出了表4中的实验结果,并将其与基于ImageNet预训练模型的传统SiamFC版本进行了对比。特别地,在本研究中我们采用了彩色图像作为训练材料,并采用包含三个尺度层次的金字塔状追踪架构。值得注意的是,在这两个实验中所使用的所有训练参数均保持一致。通过表4的数据分析可知,在两个基准测试中均取得了显著性能提升的结果,这表明大规模的数据集对于增强深度跟踪器的表现具有重要意义

5.结论
我们开发并提出了一种基于密集边界框注解的LaSOT算法, 该算法旨在应用于视觉目标追踪任务. 经调查发现, 目前尚无比之更具有高质量标注的数据集. 通过发布该平台, 我们致力于建立一个开放资源平台, 该平台将支持研究人员开发并训练深度追踪模型, 并对其长期追踪性能进行系统评估. 此外, LaSOT通过为每个序列提供语言注释, 希望促进研究者结合视觉特征与语言描述来提升追踪准确性. 通过这一基准数据集的努力, 我们期望有助于减少当前深度追踪算法数量与缺乏足够专用训练数据之间的鸿沟, 同时更为多样化的在线追踪系统提供公正评测. 在两个通用协议下的全面评估表明
