【论文阅读】ByteTrack: Multi-Object Tracking by Associating Every Detection Box
1.看图(性能)
通过查看相关图表可知, 该方法带来了显著的性能提升. 然而实际上作者指出, 在deep-sort算法中已经去除了深度组件这一关键部分.

观察下述表格,在采用作者提出的方法Byte---Motion(K)的情况下,在IDs性能上均有提升;这些ID值均有所下降;这一性能焦点主要集中在多目标跟踪任务中;特别值得注意的是,在去掉了特征比对分析后;令人意外的是这些ID值反而进一步下降;这一发现确实令人印象深刻;转向Deep-sort算法框架后;通过引入外观特征信息使ID值降低了45%;这是一个相当显著的结果

2.作者思想
首先配对配置度较高的检测框,并探讨其匹配方式。该方法主要基于前一帧的跟踪框基于 Kalman Filter 预测得到,并与当前置信度较高的候选目标框计算其交并面积 IoU 值作为匹配依据
(2)再次对未完成匹配的预测框(基于前一帧追踪所生成的Kalman Filter预测框)进行配准。具体来说,在这一配准阶段中,我们将尚未与剩余低置信度检测结果有效配对的预测候选框与剩余的待配对检测候选框进行对应关系建立。
其中匹配算法应该还是用的匈牙利算法。
3.与Deep sort对比
异:
(1)Deep sort用到了ReID外观信息,ByteTrack只用到了位置信息。
(2)Deep sort仅有一个检测置信度阈值设定(这容易导致低置信度检测框丢失),而ByteTrack则设有两个不同的检测置信度阈值设置(分别针对不同的置信度阈值空间进行处理)。
(3)Deep sort有一个级联匹配,ByteTrack有一个低阈值检测框匹配。
Deep sort在未成功找回目标且跟踪时间达到max age时,则会依据外貌特征判断是否仍可与之匹配(级联匹配)。如果无法匹配,则会导致该ID无法被保留下来。这类似于一种事后补救机制。
该方法会设定较低的置信度阈值来解决前一帧未配对的问题。这类似于一种临时解决方案。
同:
(1)预测前一帧跟踪框在当前帧的位置都是通过Kalman Filter;
(2)匹配算法也基本相同。
(3)都属于Tracking By Detecting系列算法。
4.疑问
(1)作者在实现中发现该方法的实际效果并不显著。具体而言,在处理过程中是否因为对未匹配ID进行了及时找回操作而导致,在即将删除时能够找回的ID数量有所减少?
(2)那么剩下的IDs,瓶颈在哪里?主要是因为哪些原因导致的?
