【论文笔记】Weakly Supervised Learning Based on Coupled Convolutional Neural Networks for Aircraft Detecti
Weakly Supervised Learning Based on Coupled Convolutional Neural Networks for Aircraft Detection
基于耦合卷积神经网络的弱监督学习用于飞机检测
Miaozhong Xu and Fan Zhang are Senior Members of the IEEE; Bo Du and Liangpei Zhang also hold this position.
IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTESENSING, VOL. 54, NO. 9, SEPTEMBER201
【abstract】
本文的研究重点是开发一种依赖于融合卷积神经网络的弱监督学习方法来实现高分辨率遥感图像(VHR)中的机场检测任务。
目前已存方法存在一下几个弊端:
(1)难以提取高级特征和分层特征代表;
(2)对大型图像进行人工注释代价昂贵,且不可信;
(3)在大型图像上进行小区域定位非常耗时。
【Overview of The Proposed Method】
该研究构建了一种基于弱监督学习机制的耦合CNN模型。具体而言,则从以下几个方面展开阐述:一是弱监督学习机制;二是CRPNet;三是LOCNet。
一 弱监督
弱监督学习同样是基于CNN模型,在这种情况下仅需使用图像级别的弱标签来构建训练集。当标签只需判断图片中是否包含目标时,并且通过弱监督方法能够提取或利用相关信息(见下文),因此在训练过程中仅需少量人工标注的工作量。

二 CRPNet(candidate region proposal network)
该候选区提议网络旨在开展大尺寸高分辨率遥感图像(VHR)的特征提取任务。
1.预训练
通过辅助数据来进行预训练,这些辅助数据源自加州大学的Merced数据库.其中包含了21个不同的场景类别,每个场景类别下有100张图像样本.

在预训练阶段中, 基于Merced数据集中的图像, 将其中包含飞机的图像标记为正样本, 而不包含飞机的图像标记为负样本(作为辅助数据), 并将这些负样本整合到训练集中。
2.迭代训练
对于给定的高分辨率遥感(VHR)图像,在其中标注飞机作为正例,并以辅助数据中的具有代表性的背景区域作为负例进行训练。在每次迭代阶段中,在原始图像上生成候选区域图的同时也会自动筛选出具有代表性的背景区域作为负例,并不断更新训练所用样例集合。具体而言,在迭代过程中系统会自动收集背景类别中的高分候选区域(即可能性超过0.5),并将其归类为难例加入到负例集合中进行处理;而这些被识别为具有代表性的难例并被纳入到负样本集合中以便后续训练使用

3.候选区域生成
完成训练后的CRPNet系统通过生成候选区域图来收集用于机场检测的关键点。其中每个像素对应原始图像中特定的矩形目标,在这种情况下其对应的概率值均高于0.5;而背景位置的概率值则低于0.5。同样可将其视为一种二元分类任务,在这种情况下若某像素位置计算出的目标概率超过0.5,则从该像素位置出发生成相应的检测窗口;窗口尺寸设定为196x196px,并略高于训练图像尺寸以确保覆盖范围的有效扩展。对于给定所有的候选区域,则采用贪婪非最大抑制算法进行筛选:若某检测窗口与另一个计算出超过75%相似度的窗口存在重叠,则拒绝当前窗口作为最终结果
三 LOCNet
LCONet基于候选区域的输入,并通过贪心滑动窗口搜索来检测到飞机的位置并计算出概率值。
首先,在生成器输出的空间缩放比例范围内(具体为0.75至1.25倍),被调节以实现均匀采样的尺度作为候选区域,并随后在固定尺寸的标准图像中随机选取每个训练样本用于构建训练的小批量数据集。
2.LCONet与CRPNet共享卷积层,训练过程如下:
(1)预训练CRPNet,并用标记样本和辅助样本来调整CRPNet;
基于CRPNet更新的数据集用于训练单独的LOCNet模型,并且该模型的卷积层参数通过CRPNet进行初始化。
(3)通过预设权重矩阵对CRPNet进行卷积层初始化,并在后续阶段中使用更新后的训练数据集对模型进行逐步优化;具体而言,则是采用迭代训练的方式完成这一过程。
至此,两个网络共享卷积层,并形成耦合CNN模型。
3.检测
采用多尺度精确采样策略,并将滑动窗口方法应用于其中
针对不同尺寸的照片(图片),计算背景与飞机的相关得分(指标),分别求平均值(统计量),如果该平均值大于0.5(阈值),则判定为飞机图像(识别结果)。

