论文阅读:Faster ILOD:Incremental Learning for Object Detectors based on Faster RCNN
Faster RCNN的增量学习方法

目前Faster Rcnn的目前唯一增量学习扩展方法,似乎是arxiv的。目标检测的增量学习框架研究很少,一个Fast Rcnn的,一个RetinaNet的。本文为Faster Rcnn应用了多网络自适应知识蒸馏 ,设计了一个端到端的增量学习方案,在PASCAL VOC和COCO上做了实验。
1.Introduction
目标检测SOTA与人类视觉系统之间的差距仍然很大,主要的障碍之一是在动态的现实世界中逐步学习新的任务。如,在病理学领域,由于我们知识和理解的不断增长,随着时间的推移,新的疾病模式亚型得以识别。理想的疾病模式检测系统应该能够从病理图像中学习新的疾病亚型,而不会失去检测旧疾病亚型的能力。
本文贡献:
- 我们发现,不像其它工作中所假设的(IOLD假设),RPN其实对旧类标注缺失很健壮。
- 提出多网络自适应蒸馏,在学习新任务时,记住旧知识,同时解决旧类标注缺失的问题。
- 用Faster Rcnn做基础网络,性能表现很好。
- 我们的方法可用于任何有RPN的目标检测器。
2.Problem Formulation
增量学习问题定义bla...称旧网络称为教师模型,重训练模型为学习模型。
生活中的增量目标检测学习场景应有如下假设:
- 只有新类训练数据可用,没有旧数据记忆
- 旧类的目标可能包含在新训练数据中,然而标注是缺失的 (这是目标检测不同于分类任务之处)
- 重训练的检测器应该在新旧类上都表现好
3.Related Network
知识蒸馏(KD)
基于知识蒸馏的增量学习方法
lwf首先将KD用于增量学习;M2KD将当前模型的类别输出与相应的旧模型的类别输出直接匹配,并对旧模型使用基于掩码的修剪;iCaRL加了记忆,但存在对新类的预测偏差;E2E IL;Large Scale IL用平衡Batch训练额外two-parameter offsets。
应用于检测的方法中,IOLD特意选择Fast Rcnn,使用外部RP(Region Proposal)生成器,确保RP与类别无关;
CIFRCN的实验将类分为几组,分组增量学习,忽略了包含属于不同类组的图像,以避免旧类注释缺失问题;
基于RetinaNet的RIOLD没有提到怎么处理这个问题。
我们使用的设置更接近实际应用。包含当前任务对象的所有图像都将用于训练。如果图像还包含旧类中的对象,则不存在它们的注释。
4.Evaluation of Robustness of RPN to Incremental Object Detection
此章用于说明RPN对检测器的影响。
用和IOLD(Fast RCNN)同样的训练策略,用于Faster RCNN,发现在旧类标注缺失 的设定下,Faster RCNN的性能没有太大恶化(见实验部分)。
一个可能的原因是,RPN对标注缺失 健壮(有文献证明),因为负proposal恰好含有旧类对象的概率很低。
Old class object proposals would be treated as false alarms and become a problem for training. Offsetting this effect, although for ILOD method, distillation is only applied at the final outputs, loss due to matching the old model back-propagates through the entire network and will tend to force both the RPN and feature extractor to detect old classes. The RPN training is not destroyed at least over the range of our experiments, such as one or several-step incremental settings.
5. Faster ILOD for Robust Incremental Object Detection
-
目标检测网络
上方为原网络,即教师网络Fte;下方为新网络,即学生网络Fst。
其所有参数初值与教师一样,除了分类器多了一个新类预测分支。 -
多网络自适应蒸馏
此处多网络指特征提取器,RPN,RCN,为他们的输出应用蒸馏损失。
-
特征提取蒸馏
L1 loss,特征图减去均值。
对特征图每个激活,检查师生网络输出差异。老师高,可能对旧类重要,则生成loss;学生高,可能对新类重要,loss为0(作者称为adaptive distillation,区别就在这个loss置为0)。

-
RPN
同样,teacher model RPN outputs as a lower bound。
阈值τ=0.1(来源于另一篇论文的方法,二分类差距大于阈值才蒸馏边框),L2 loss,q是二分类输出,r是边框回归输出:

-
RCN
跟随ILOD的做法,随机从128个,在教师模型,背景分数最小的,RoI中,选择64个(K)做蒸馏。

总loss三者相加

6.Experiments
数据集和指标
PASCAL VOC 2007, COCO 2014,mAP
实现细节
和ILOD对比



