Advertisement

LSTD: A Low-Shot Transfer Detector for Object Detection论文理解

阅读量:

文章目录

    • 文章思路
    • 可以利用的点

文章思路

出自:Proceedings of the AAAI Conference on Artificial Intelligence, 2018. 遗憾的是,并未提供PyTorch版本的代码来源;该源码源自C++和caffe的基础架构。

该算法框架将SSD(单阶段检测器)与Faster RCNN(基于区域建议的快速算法)进行了整合。

Stage-wise anchor boxes (SAB)阶段中采用多层级特征图(不同于FPN融合机制),通过在各个尺度特征图上执行每一个grid对应的box回归任务,并引入平滑L1范数作为损失函数计算。

在Faster RCNN框架中实施一个 coarse-to-fine 的优化策略,在此过程中首先评估每个候选框是否包含目标物体,在完成初步筛选后实施区域建议框(RPN)生成以及区域池化操作,在此之后通过卷积神经网络对候选框进行目标分类

整个训练流程包含两个阶段:前期基于充足的且具有同源性的数据集构建了一个LSTD模型(命名为source domain),随后将共享除最后一层分类器外的所有参数给一个新的LSTD模型(命名为target domain)。对于样本较少的数据集进行进一步优化。

在微调过程中具有关键特征的是,在损失函数中引入了自定义的两个正则化项\boldsymbol{L_{BD}}\boldsymbol{L_{TK}}

\boldsymbol{L_{BD}}旨在平衡正负类样本(类别分布失衡问题),通过小样本标注数据中负面类占优的情况引入一种惩罚机制,在中间层特征图上对负面类像素施加权重衰减。该方法通过L2范数作为惩罚项实现这一目标。其具体表达式为:\boldsymbol{L_{BD}=||F_{BD}||_2}

\boldsymbol{L_{TK}}的核心目的是通过直接在源域模型上对 novel class 进行分类来获取分数较高的分类结果,并通过这些与真实结果具有相似特征(如颜色、形状、出现背景)来指导目标域模型的微调过程。
另一种理解是通过防止 catastrophic forgetting 的机制,在微调过程中使 base class 的输出结果接近预训练后的状态。
具体而言,在目标域中引入多任务并行学习框架:除了传统的分类任务外,在此基础上增加一个分支来预测源域 novel class 的 soft label,并确保该分支的学习能够模仿源域同一张 novel class image 的预测结果。
\boldsymbol{L_{TK}=CrossEntropy(P_S,P_{pre})}


可以利用的点

  1. 小样本学习的主要思路有三条:该算法主要基于两个关键方法:一是基于预训练模型并在特定领域进行微调优化;二是采用少量示例即可实现有效学习的关键技术基础。
  2. 小样本学习中需要注意合理利用背景区域作为负样本;由于正负样本比例失衡,在数据有限的情况下合理分配各类别信息对于提升模型性能至关重要。

全部评论 (0)

还没有任何评论哟~