基于改进faster-rcnn的舰船目标检测与识别(阅读笔记)
模型优化:在rpn模块中引入了K-means聚类算法,并实现了对框大小进行聚类处理后作为输入传递给rpn网络
二、Faster-RCNN特点
1.1区域检测网络
1、传统的区域检测框选择
方法:基于selective search算法实现
缺点:会导致检测到的候选框存在重叠出现,并因此增加计算开销
2、fast-rcnn
该算法基于区域建议网络框架设计。
其原理在于通过卷积操作提取出反映图像特征的关键信息。
其工作流程如下:
模型架构包含两个独立的空间分辨率分支。
具体而言:
第一个分支由一个1×1的小核和18维的空间扩展层构成,
用于检测前景候选框;
第二个分支则由另一个同样尺寸的小核和36维的空间扩展层组成,
用于计算候选框相对于原始图像的位置信息。
将候选区域投影至特征图空间中,并将其划分为水平与垂直方向各7个子块。对每个子块应用最大值池化操作后得到一个7×7的特征图片段,并通过拼接形成统一尺寸的固定大小输出图像。
1.3 分类
通过分类模块处理后的特征向量...经全连接层和应用softmax函数进行计算与分类...判断每个区域所属类别并输出其对应概率值...随后利用边界回归模块计算出该区域与真实标注GT的位置偏移量...这些偏移信息被用于后续的目标定位校正过程...最终使检测框能够更加精确地逼近真实目标边界。
1.4 非极大值抑制功能体现在,在经过分类处理后,在每个类别周围会产生多个候选框,在这些候选框之间存在一定程度的重叠区域。因此需要采用这一方法来解决这一问题

步骤:
第一步是将所有候选框按照得分排序,并选择最高分的那个。
第二步是对剩余的所有候选框依次遍历。
并设定一个阈值标准。
计算每个候选框与当前最高分框的iou值;如果该iou值超过预设阈值,则将其移除。
第三步则继续从剩下的候选框中重复上述步骤。
三、文章创新点
第三部分阐述了本文的核心创新点:引入了k-means聚类算法来优化目标函数。
(1)首先输入n个 样本 ,并 为 它们设定k个 类别 数量 作为 聚类 的 初始 中心 点 。随后通过 随机 抽取 的 方法 选取k个 样本 作 为 第一 次 聚类 的 中心 点 。
(2)接着 计算 所有 样本 与 各 类别 中心 点 之 间 的 距离 , 并 对 每一 个 样本 分配 到 距 离 最 近 的 类别 中 。
(3)然后 计算 每一 类别 所有 样本 的 平 均值 , 得到 新 的 聚类 中 心 点 。 同时 设 定一 个 准则 函数 , 并 不断 重 复 上述 过程 , 直到 结果 符 合 准则 函数 条件 , 得到 最终 的 聚类 结果 。
四、具体实现流程
- 准备好类别标注,并以XML格式保存数据。
- 采用k-means算法对XML文件中的目标框进行聚类处理。
- 将得到的k个聚类中心点作为初始边界框尺寸输入到Faster-RCNN模型中。
- 在测试集上运行Faster-RCNN模型,并与传统Faster-RCNN方法进行性能对比。
五、实验分析
1、数据集制作
设定图片尺寸为1200x966像素。
样本数量未作限制。
处理后生成的结果形式为XML标签文件。
2、边框尺寸选取
处理的对象为XML文件中的object及ground truth对象。
采用K均值聚类算法并附加终止条件以优化计算流程
3、训练模型
实验平台;i7 4代处理器、英伟达1080ti、ubuntu14.04、内存16
特点:采用以下方法:在原有faster-rcnn算法的基础上,在每个特征图元素自动生成9个包围盒大小的基础上进行改动,并将其修改为通过前文所述的K-means算法获得5个聚类中心的具体坐标值
(1)经过迁移学习策略并采用Imagenet预初始化后,在独立阶段对RPN网络进行迭代优化直至达到迭代次数上限值iter=2000。
(2)基于第1步所得候选区域作为第2步输入数据集构建一个新的Faster-RCNN模型。
(3)利用第2步获得的模型参数对第1步模型进行进一步优化以提升检测精度;然而在此过程中需要维持RPN网络与Faster-RCNN网络在共享特征提取模块上的参数共用仅对RPN特有的专门设计模块进行单独优化以确保特化效果。
(4)同时维持RPN网络与Faster-RCNN网络在共享特征提取模块上的参数共用并针对Faster-RCNN专用设计模块进行微调最终实现快速准确的目标检测性能。
图表:(1)loss曲线
(2)map、速度
