Advertisement

【论文笔记】MOT16 A Benchmark for Multi-Object Tracking数据集介绍

阅读量:

该数据集:多目标跟踪基准MOT16

包括了总共14个视频序列的数据集是MOT16。其中7个是具有标注信息的训练集合,剩下的7个则作为测试集合存在。下图直观地展示了这些数据集中分为两部分:第一部分用于训练(训练集合),第二部分用于测试(测试集合)。

这里写图片描述

本图展示了MOT16数据集中两个相关数据统计表的信息。其中一张表格展示了训练集的数据信息——具体包含了视频帧率(单位:帧/秒)、每张图像的具体尺寸、总时长、标注框数量等关键指标。另一张表格则提供了测试集的相关数据。每个表格都详细记录了视频序列的基本参数以及注释框的数量变化情况,并且还对相机运动轨迹及其拍摄角度进行了分析研究。此外,在实验过程中还考虑了不同天气条件下的影响因素

这里写图片描述

MOT16应用了一种较为先进的目标检测算法对数据集中的目标框进行标注,并在实验中对这些算法的表现进行了评估,并绘制了其在不同阈值下的准确率与召回率曲线图如图所示

这里写图片描述

其中第三种方法DPM在确保较高准确率的同时实现了最佳召回率,在这一前提下,MOT16将该算法设定为评估数据集标注质量的目标检测基准,如上图所示,右侧部分展示了该算法的具体应用效果。
从下图可以看出,在使用DPM方法对MOT16数据进行目标检测时:一共涵盖了14个不同视频序列,每个视频下的统计表格列出了其目标数量以及每帧平均约3.8个框,同时记录下了每帧平均约3.8个目标被成功跟踪的情况,这些框在整个画面中的上下边缘位置进行了精确定位。

这里写图片描述

MOT16数据集中的文档组织格式如下:所有视频被划分为按帧生成的图像序列,并统一以JPEG格式保存(如:编号采用六位数字编码的方式(如000001.jpg))。其中每个图像文件都对应一个目标的具体信息记录,在相关记录中均标记为-1以表示无相关信息。具体而言,在目标检测结果展示的内容框架中包括以下几项关键指标:第一项字段表示该目标首次出现的帧数位置;第二项字段用于标识该运动轨迹的唯一标识符(在相关记录中均标记为-1);第三至第六个字段分别用于记录标注bounding box的位置坐标参数;第七个字段则用于存储系统检测的目标置信度评分值(其余相关参数在记录中均标记为-1)。

这里写图片描述

下图为目标运动物体的跟踪标注数据文件。其中第一字段与前文一致;第二字段为运动轨迹对应的唯一标识符;第三至第六字段与前文相同;第七字段指示目标轨迹是否在分析范围内:0标记表示该轨迹应被忽略;1则标记该目标为活跃状态;第八字段指定该轨迹所对应的类别信息(具体分类参考下文表格中的label-ID映射表);第九字段记录了目标在移动过程中与其他框重叠或边缘裁剪的程度...]

这里写图片描述
这里写图片描述

每个(图像序列)视频文件都包含一个'Sequence-Name.txt'文件,其中包含了之前提到的所有CSV文件内容。整个数据集大小为1.9GB,在训练集中提供了ground truth.txt文件作为参考依据。

二、MOT16数据集的标注规则(Annotation Rules):

这里写图片描述

1、 Target Class-目标类别划分规则

这里写图片描述

MOT16标注的主要是移动中的目标,将所有目标简要分为以下三类:
Target:(i)移动中的行人与站立的行人;
Ambiguous:(ii)不处于直立状态的人与人造物(artificial representations)
Other:(iii)车辆和互相包含/遮挡的目标(vehicles and occluders)
第一种类别中,由观察者标注所有出现在视野中移动或直立的人,包括在自行车或者滑板上的人,处于弯腰、深蹲、与小孩对话、捡东西状态的行人也同样被考虑在该类别内。
第二种类别中,包括people-like的目标(模特,出现人的picture,反射的人影),被划分为模糊目标(不同viewer之间的意见变化较大的),不处于直立状态的静态的人(坐着或躺着的)。带着墨镜的人被划分为distractors。
第三种类别中,标注所有移动的车辆和非机动车(如婴儿车)和其他存在潜在包含/遮挡关系的物体。这个类别中的标注信息仅提供给参赛者训练使用,不算在评价目标检测方法的准则中,静态的车辆或者自行车若没有包含行人则不考虑在内。
2、 Bounding box alignment
Bounding box在尽可能紧凑的情况下要包含所标记目标的所有像素点。这意味着一个正在移动的行人的bounding box是长宽不断变化的,如果这个人局部被遮挡,box的尺寸可以参考其他的信息,如影子,反射,上/下一帧的尺寸等。如果一个人正好在图像的边缘部分(被裁剪掉一部分),那么bounding box可以超出该帧图像的大小来标记完整的行人。如果一个物体被部分遮挡或者存在包含问题(e.g.一棵树有很多树枝,如果box把树枝标注进来会过大而把其他无关物体包含进来),那么就用多个box来近似表示该物体。在自行车上的人仅标注该人,不考虑包含他的车,在汽车内的人不做标注。
3、 Start and end of trajectories 起始与结束时间点
在标注者确认该物体不属于ambiguous 类别时:Start as early as possible, end as late as possible.
4、 Minimal size
虽然有时图像中的行人占很小的尺寸,但是这里要求标注者在人眼可分辨范围内尽可能地标注。(In other words, all targets independent of their size on the image shall be annotated)
5、 Occlusions遮挡
主要体现在跟踪标注时,在物体能够被识别无误的情况下尽可能标记,若物体运动时被完全遮挡或者消失,则该物体再次出现时重新设置轨迹ID号。
6、 Sanity check 检查
当所有视频被标注完成之后,采用高精度的行人/车辆检测方法来判断标注是否有遗漏、错误,同时人工协助进行审查。
三、MOT16数据集对于各个检测识别算法的评价方法
数据集旨在提供符合标准的ground truth数据、评价算法指标和训练的脚本内容,一方面能够理想地以数字来反应各个目标检测跟踪算法的精确度,另一方面挖掘各个检测识别方法产生的识别错误信息。
下面是评价方法(简单概括):
1、 识别出的bounding box与ground truth的交集大小,距离度量;
2、 识别出的语义与标注label的相似性;
3、 其他轨迹跟踪的质量评价方法。
四、Baseline Method
用当下一些公开的目标跟踪的方法来测试MOT16数据集。

这里写图片描述

全部评论 (0)

还没有任何评论哟~