【论文阅读笔记】RetinaNet:Focal Loss for Dense Object Detection
【论文阅读笔记】Focal Loss for Dense Object Detection
- (一)论文地址:
- (二)核心思想:
- (三)One-stage 方法的问题:
- (四)Focal Loss:
- (五)参数选取:
- (六)RetinaNet:
- (七)实验结果:
(一)论文地址:
https://arxiv.org/pdf/1708.02002.pdf
(二)核心思想:
在论文中,作者深入探讨了one-stage方法准确率较低的原因,并提出了一种新的损失函数,称为Focal Loss,以解决正负样本比例失衡的问题。同时,作者设计了一个高效的网络架构,命名为RetinaNet,既保持了one-stage方法快速的特性,又实现了更高的准确率。
(三)One-stage 方法的问题:
one-stage方法(如YOLO、SSD等)在不同尺寸的特征图上,通过采用不同尺寸和比例的锚框进行密集采样。这种方法所生成的候选框数量显著多于两阶段方法,其主要问题是,绝大多数候选框都被归类为背景类。尽管分类器在仅将所有候选框归类为背景时,其交叉熵损失依然保持较低水平。
而 two-stage 方法主要通过 RPN 网络实现,每次仅选择一部分样本(通常为 256 个)融入 Loss 计算。该方法首先采用了二分类策略(背景类别和非背景类别),对物体进行初步筛选,随后通过分类器完成最终识别,这种分步处理的方式有效缓解了样本不均衡的问题。
(四)Focal Loss:
为了在 one-stage 方法中突出小样本,作者设计了一个 Focal Loss:

即在原本的交叉熵损失函数前加上了一个权重项:(1-p_t)^{\lambda};
其中:

p\in[0,1] 是某一类别 y 的输出概率,y=0或1;
由此带来的直观影响就是:
-
被正确分类时:
1.1 背景类的 Loss 大幅下降;
1.2 物体类的 Loss 正常下降; -
被错误分类时:
2.1 背景类的 Loss 正常下降;
2.2 物体类的 Loss 小幅下降;
因此训练时,更多注意力被放到了精细区分物体类上;
而 Focal Loss 也可以用另一个更复杂的定义:

(五)参数选取:

作者在实验中发现,γ=2,α=0.25 时效果最好;
(六)RetinaNet:

基于ResNet构建Backbone以获取特征,通过FPN方法生成3个特征层从而形成特征金字塔,分别采用一个分类子网络和一个回归子网络来进行预测任务。
(七)实验结果:
在原有 one-stage 基础上大大提高了检测的准确率;


