旷视研究院获得第一届DanceTrack挑战赛冠军
多目标跟踪与分割技术旨在识别并关联观众感兴趣的物体,在视频内容理解和人机交互等多个领域发挥着关键作用。现有计算机视觉算法在处理单一物体时展现出良好的跟踪与分割效果,在复杂场景下则面临性能瓶颈。
为了优化计算机视觉系统的性能表现,在ECCV会议期间特意安排了一场名为《复杂环境下多目标跟踪与分割技术挑战》的Workshop活动
该挑战赛为第四届 YouTubeVIS 长视频实例分割竞赛
第二阶段 OVIS 被遮蔽视频实例分割竞赛 (2nd Occluded Video Instance Segmentation Challenge)
首次由DanceTrack组织的团队舞蹈多人追踪运动挑战赛
The 2nd UVO Open-World Video Object Detection and Segmentation Challenge
最近首次举办的第一届DanceTrack团体舞蹈追踪挑战赛(1st Multiple People Tracking in Group Dance Challenge)的比赛结果已公布。

赛题简介
团体舞蹈 (DanceTrack) 属于多目标追踪领域中具有显著特色的场景。在团体舞蹈场景中,舞者的服装款式统一且外观特征高度相近。然而,在这种复杂的动态环境中,舞者的运动模式多样且相对位置频繁变化。这些独特特点使得基于外观识别(re-ID)技术和线性运动模型(Kalman Filter)等现有的追踪方法面临相应的挑战。为了测试和提升追踪技术的能力,在DanceTrack 挑战赛中要求参赛选手根据提供的视频数据集实现对视频中多个舞者的实时跟踪。根据每位参赛者提交的追踪轨迹结果计算HOTA指标(高阶跟踪精度),最终将根据这一指标确定排名。
旷视夺冠算法介绍
针对团体舞蹈这类多目标追踪任务的主要挑战在于建立对目标运动轨迹的时间序列建模机制。传统的做法通常综合考虑被跟踪物体的外观特征与人工设计优化的卡尔曼滤波器来进行追踪。然而,在时间序列建模方面仍存在诸多限制性假设与复杂性问题。我们提出了一种基于Transformer架构的端到端多物体跟踪算法——MOTR(见参考文献[1]),它在时间序列建模方面提供了一个简洁而高效的基准方法。

图1. MOTR整体框架示意图
在此启发下, 我们直接采用MOTR算法并对DanceTrack数据集进行了实验验证. 尽管在实际应用中取得了令人满意的效果, 但MOTR算法在物体检测方面的性能仍显不足, 主要由于其自身设计中的检测、连接的耦合机制: 即利用同一个解码器同时完成物体检测与目标跟踪连接过程. 因此, 我们决定对这一耦合机制进行优化. 具体而言, 将 MOTR 中的检测查询向量进行锚定点转换, 并结合旷视研究院开发的高性能物体检测模型YOLOX [2] 的优势, 将YOLOX生成的质量建议框转换为锚点对以初始化检测查询向量. 这种改进方法被命名为MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors (简称:MOTRv2, 论文即将发布, 欢迎关注), 如下图所示

图2. MOTRv2 整体框架示意图
为了实现 MOTR 与 YOLOX 检测结果的有效融合,并且使其能够优雅地融合在一起。该系统成功继承了端到端多目标追踪的核心特性。我们提出了一种称为锚框传播的新概念。如图所示,在这一框架下,我们将检测查询向量和追踪查询向量通过锚框初始化来进一步优化。

图3. 锚框传播示意图
本次实验中,在DanceTrack挑战赛[3]中基于HOTA指标取得了显著的优势并荣获第一名的成绩。具体而言,在检测性能(DetA)方面排名第二名(仅低于第一名仅差0.02%),而连接性能(AssA)相比第二名高出约10%。这些结果凸显了旷视自研MOTR系列框架在端到端时序建模方面的卓越表现。

图4. 第一届DanceTrack挑战赛排行榜
参考文献:
[1] MOTR: End-to-End Multiple-Object Tracking with Transformer
[2] YOLOX: Exceeding YOLO Series in 2021
[3] The 1st Multiple People Tracking in Group Dance Challenge - DanceTrack
实习生招聘
热爱多目标追踪、视频预训练及自动驾驶感知问题的同学,请您务必投递您的简历至指定邮箱!请将您的简历命名为'姓名_学校_年级_Model_Video组实习生'并发送至此邮箱:guwenxian@megvii.com

