Advertisement

Segment as Points for Efficient Online Multi-Object Tracking and Segmentation

阅读量:

Represent points for efficient real-time multi-object tracking and segmentation.

Represent segments as points with the objective of achieving high-efficiency online multi-object tracking and segmentation.

Motivation

Methods

Experiments


Paper URL

TL;DR

现有的主流多目标检测分割技术主要依赖于tracking-by-detection的方法,在这种框架下利用卷积神经网络提取特征时存在固有局限性。具体而言,在MOT后续实例关联任务中难以避免前景区域与背景区域特征信息混杂所带来的识别模糊问题。本研究引入了一种基于关键点的新框架PointTracker(简称PT),通过将图像信息转化为无序排列的二维点云表示的方式显著提升了模型对多模态数据(包括颜色信息、位置坐标及类别标签等)的有效融合能力。该算法不仅在KITTI MOTS、MOTS Challenge及本研究提出的Appolo MOTS等基准测试集上均取得了当前最优性能(SOTA),而且实现了稳定的22帧每秒实时处理速度。

TL;DR

Motivation

通过实例分割能够准确勾勒出可见实例的边界线,并能清晰地区分邻近实例。
可以看出,在对比基于边界框的方法时,
不仅支持像素级别的分析能力,
同样有助于模型学习更多具有区分性的实例嵌入特征。

卷积操作在提取嵌入时会受到固有感受野的影响,在多目标跟踪(MOT)中的后续实例关联任务中造成歧义。为此我们提出了一种方法,在此基础之上将有序的空间信息转换为无序的点云结构,并从前景与背景分别采样不同点云来提取相应的特征信息以避免前/背景信息混杂的问题

Methods

1.Context-aware instance embeddings extraction

Embedding 特征提取总体思路: 基于分割mask将包含上下文信息的Bbox区域划分为前景区域F与背景区域E,并分别从前景区域F与背景区域E中进行采样操作。在此基础上结合颜色信息、位置坐标以及类别标签等多维度数据特征提取采样点,并将所有采样所得的特征点集合形成无序三维空间中的特征云数据集。随后通过多层感知机(MLP)模型对其进行深度学习处理以提取最终嵌入表示。

实现细节: 对于一个分割实例

​,它的分割记为

​,外接矩形记为

为了使bbox能够包含上下文信息,在实际应用中通常会采用以下方法:将bbox按照预设的缩放因子(k=0.2)在四周进行扩展,并将其扩展后的区域标记为需要关注的区域。

​,通过分割mask可以确定

​​内的前景点​和背景点​.每个样本点的有6个维度特征

​,其中​

是图像平面上的相对于实例中心的偏移量,​

是三通道的颜色信息,

​表示该实例的类别

从前景点集里面随机

​个前景点云

​(默认1000个),从背景点集里面随机选择​​

个背景点​

(默认500个)

计算个前景点​的形心,分别计算前景点和背景点相对于形心的偏移量​

颜色信息直接取原始的像素信息​

类别信息为one-hot的向量(其中类别也算作单独的类别):

​ ​

Bbox位置信息:四维坐标数据将被提取,并且无论是否为前景或背景区域都会被单独处理以获取独立的一致嵌入特征向量。

前景特征提取分支: *

前景特征利用offset和color两类信息,通过MLP分别提取特征

在考虑前景点时,在直觉上占优的点应当被赋予较高的权重值的同时也需要考虑到其他的一些点并且给予其较低的权重值从而引入了Point weighting层以实现对所有前景点的加权计算

通过最大池化算法提取显著特征, 通过平均池化算法获取整体特征表示

背景特征提取: *

使用 offset参数、颜色信息以及类别信息提取特征。为了区分不同类别而引入类别信息。在背景区域中可能存在其他类型的实例。例如常见的实例类型包括人、车辆以及纯背景等。

直接使用的Max pooling

位置特征提取: *

位置特征提取参考Transformer将其编码为64维度embeding特征

最后综合考虑前景、背景以及位置特征,并通过MLP模型提取出用于关联匹配的Embedding特征

2. Online Track Association

在数据关联环节中进行排序的数据关联过程(SORT 和 DeepSORT)均基于匈牙利二分匹配算法进行匹配操作,在相似性分数计算方面,则采用基于欧氏距离的方法进行计算。

​和分割mask的分割交并比

​的线性融合综合度量

3. Instance segmentation with Temporal Seed Consistency

基于实例分割的经典框架通常采用两阶段方法如Mask-RCNN,在此框架下虽然精度较高但存在速度较慢的问题。在本文中我们引入了一种基于时空嵌入的一阶分割网络。整体性能表现较为均衡。研究者发现该模型在某些特定场景下会出现性能瓶颈。针对时间一致性问题我们提出了时域一致性损失函数并通过实验验证了其有效性。

SpatialEmbedding模型中backbone组件基于编码-解编码架构由两个独立解码模块构成经后端分离形成两支网络:第一支为 seed_map decoder 用于计算每个分割实例的核心位置;第二支为 inst_map decoder 用于计算每个像素相对于其所属实例核心位置所存在的向量偏移及其可容许的标准差范围。在推理阶段将待分割图像中每个像素的位置坐标通过 inst_map decoder 计算得到与核心位置之间的向量偏移并结合 seed_map decoder 的结果确定其所属核心区域若该待分割图像中某特定区域位于 seed_map decoder 预测的核心区域可容许偏差范围内则将其标记为此核心区域对应的实例从而完成分割任务

在分析SpatialEmbedding分割网络的坏样本情况时发现,在前后连续帧之间存在的seed map不一致性问题后

表示第T-1帧的seed map ,​O表示光流传播计算(本文采用VCN网络提取光流)​

:​,则时域一致性损失定义为:

最终的网络结构如下图:

Experiments

实验分为四个部分。

跨三个数据集评估 PointTrack: KITTI-MOTS、MOTSChallenge 数据集及 Apollo-MOTS 数据集, 其中 Apollo-MOTS 数据集是我们提出的新型数据集, 拥有更多数量级的数据样本, 且场景更加拥挤, 在此背景下, 该场景下的车辆密度较之于 KITTI 的 MotUs 数据集中达到了 2.5 倍

数据模态的消融研究

为了研究PointTrack从2D point cloud中获取的知识,并对预测实例的Embedding表示进行可视化分析, 我们计划对关键跟踪的关键路径进行动态展示

在官方的KITTI MOTS测试仪上提供结果。

1.三个数据集上的评估:本研究在三个数据集上展开评估实验,并通过对比实验验证了所提方法的有效性与鲁棒性。具体而言,在sMOTSA与MOTSA任务中分别比现有方法提升了约3.5%和5.4%的准确率,在时域一致性(TC)损失方面显著减少了点漂移影响。

2.多模态数据消融实验: 依次删除四种数据模式后可观察到它们对系统性能的影响。 结果显示删除颜色数据导致系统性能显著下降。 相比之下移除位置数据后系统性能仅下降最小。 通过分析不同数据模式对系统性能影响程度差异可以看出pointTrack模型在跟踪过程中更注重目标物体的外观特性和环境细节信息而非过分依赖边界框的位置信息来关联实例 因此pointTrack模型实现了较高的跟踪效率并获得了更低的ID-switch率

3.Embedding和关键点可视化

通过t-SNE方法对嵌入特征进行二维空间展示

在关键点可视化中:其主要包含两种类型的关键点:一种是前景关键点(以红色标记),另一种是背景关键点(以黄色标记)。

关键前景点: 本研究选取point weighting层预测结果中权重最高的10%的关键前景点作为研究对象,并将其用红色标记出来。这些关键前景点主要集中在汽车眼镜和汽车灯周围区域。值得注意的是,这些偏移量不仅有助于理解车辆形状与姿态的变化趋势,在实例外观特征提取过程中也具有重要意义。此外,在实验过程中我们发现,在不同区域被遮挡(如第一组中的第二列及第五列)或者当车辆移动至图像边界时(如第一组中的第四列),PointTrack算法仍然能够保持连续帧内加权点的一致性和稳定性。这种一致性和稳定性充分验证了point weighting 层的有效性。

关键背景点: 通过黄色标记法识别五个最具代表性的关键背景点。这些点的选择过程是在背景分支的最max pooling层之前提取大小为256 × 的特征张量,并收集各通道最大响应位置的索引位置。在这256个索引中筛选出五类最频繁出现的最大值索引作为关键背景点。如图所示,在这些索引中挑选出属于五个最常见类别中的关键样本作为代表点进行分析。研究表明,在将类别标签与目标偏移信息结合使用时,关键背景点能够有效地提取出区分性上下文特征以辅助目标关联任务完成。通过实验验证可知,在PointTrack算法框架下对关键背景点进行分布学习确实能显著提升目标跟踪性能。

在KITTI MOTS TEST数据集进行测试实验:我们获得了良好的结果;基于MOTSA指标分析显示,在汽车和行人类别中(Point/Track)分别优于(MOTSFusion)6.8%和3.6%

全部评论 (0)

还没有任何评论哟~