Advertisement

Multi-Object Tracking and Segemtation(MOTS)论文解读

阅读量:

######12月博客第一篇~2019要结束喽######

这篇文章主要探讨了多目标分割与跟踪(MOTS)的方法——Voigtlaender等学者在2019年发表的《MOTS: Multi-Object Tracking and Segmentation》一文中提出了相关理论与技术框架。自9月份以来,作者断断续续地跟踪该领域已有进展,并从中积累了宝贵的经验。近期完成了对该领域的学习与理解总结

文章涉及的内容主要包括以下几个方面:首先是对数据集构建过程的具体阐述;其次是对任务评估指标进行过重新定义;再次是对于基准网络的基本介绍;此外还包括针对网络结构的研究实验以及相应的性能分析等环节。值得注意的是,在众多关注点中,读者最关心的是与实际应用相关的部分——即对网络实现细节的关注相对较少。本文以及后续文章都将重点介绍其提出的一种名为MOTS-TrackR-CNN的新方法。

文中指出:TrackR-CNN是建立在Mask R-CNN基础上设计的一种专门针对MOTS任务的深度神经网络架构。实际上深入分析后会发现这一网络主要由完整的Mask R-CNN架构构成,在空间维度上构建了3D卷积模块以加强各帧间的时空关系建模,并且其中也继承了其 bbox 回归、类别预测以及mask生成等基本组件。此外,在数据关联机制中引入了一种128维全连接编码器以提升特征融合能力

这是在PPT中大致展示了项目的整体架构,在PPT中大致展示了项目的整体架构,并且发现该架构较为简单,并且发现该架构各部分之间的依赖关系较低,并且各个模块的功能划分明确

除了网络结构之外,这篇文章中还有一些实验细节值得注意:

其训练与测试均在同一台 Titan X 设备上完成;由此可见该网络具有较大的计算量,在实际运行中可能需要超过 10GB 的内存资源才能启动。值得注意的是博主实际测试发现仅使用一块 4GB 显存即可流畅运行 Mask R-CNN 模型;然而该模型运行过程中频繁出现OOM错误;从计算资源分配的角度来看这一现象并不奇怪因为遵循代码中的默认配置设置其输入为连续 5 帧序列;模型参数共享使用以减少计算开销但相对于单帧输入的情况而言在处理多帧时 feature map 数量增加了约五倍。

关于网络的代码实现会在日后的博文中详细介绍,谢谢各位道友的支持。

全部评论 (0)

还没有任何评论哟~