TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captu
摘要
针对以下问题:
1、无人机在不同的高度航行,物体的尺度变化很大,这给网络的优化带来了负担
2、高速低空飞行给密集的物体带来了运动模糊,这给物体识别带来了巨大的挑战
提出了TPH-YOLOv5:
1、将原来的检测头换成了TPH(Transformer Prediction Heads)来探索具有自注意力机制的预测潜力
2、添加了CBAM,以在对象密集的场景中找到注意力区域
3、此外,还使用了数据增强、多尺度测试、多模型集成和利用额外的分类器
Introduction

1、无人机拍的照片尺度不一,且范围广,包含高密度物体,导致物体之间的遮挡,因为覆盖面积大,存在令人困惑的地理因素
为了提高TPH-YOLOv5的性能,采用了一些小技巧:
1、在训练时使用图像增强,促进对图像中物体的显著尺寸变化的适应。
2、在推理过程中同时添加了多尺度测试和多模型集成策略
3、通过对错误案例的可视化,发现提出的架构具有出色的定位能力,但分类能力较差,尤其是一些相似的类别上,比如三轮车和遮阳棚三轮车。为了解决这个问题,提供了一种自训练分类器,使用从训练数据中裁剪的图像块作为分类训练集,使用自训练分类器,在AP上得到了0.8-1.0的提升
本文贡献如下:
1、添加了一个预测头,处理对象的大规模变化问题
2、将TPH集成到YOLOv5中,可以在高密度场景中准确定位对象
3、将CBAM添加到YOLOv5中,可以帮助网络在具有大区域覆盖的图像中找到感兴趣的区域
4、为无人机捕捉场景中的目标检测任务提供了有用的技巧和过滤一些无用的技巧
5、使用自训练分类器来提高对一些混淆类别的分类能力
Method

1号头是新添加的头
Transformer encoder block
受VIT的启发,将一些卷积块和CSP模块替换成了transformer encoder blocks。在VisDrone2021数据集上,transformer encoder blocks对于被遮挡的高密度物体有着更好的表现,仅在头部和主干尾部添加TPH,因为分辨率低可以减少计算量。

Ms测试和模型集成
根据模型集成的不同视角训练了五个不同的模型。在推理阶段,第一次使用MS测试策略在单个模型上,
ms测试的实现细节如下:
1、将图像缩放为1.3倍
2、分别将图像缩小到1倍,0.83倍和0.67倍
3、水平翻转图像
最后,将6个不同的缩放图像提供给TPH-YOLOV5,并使用NMS融合测试预测。在不同的模型上,执行相同的ms测试操作,并通过WBF融合最后五个预测,以获得最终结果。
自训练分类器
TPH-YOLOV5定位能力强,分类能力弱,针对这一问题提出自训练分类器,首先通过裁剪GT边界框将每个图像的大小调整为64*64,建立一个训练集,然后选择ResNet18作为分类网络。实验结果显示有0.8-1.0的提升
Experiments


