Advertisement

【论文阅读笔记】YOLO v1——You Only Look Once: Unified, Real-Time Object Detection

阅读量:

You Only Look Once: Unified, Real-Time Object Detection

  • (一)论文地址:
    • (二)核心思想:

    • (三)网络结构:

    • (四)Unified Detection:

    • (五)实验细节:

      • 5.1 激活函数选择:
      • 5.2 坐标归一化处理:
      • 5.3 损失函数设计:
      • 5.4 训练参数设置:
    • (六)实验结果:

(一)论文地址:

https://arxiv.org/pdf/1506.02640.pdf

(二)核心思想:

YOLO v1 的提出标志着 one-stage 方法的开创性发展,采用全局全连接方法,作者将目标检测问题重新定义为回归问题,每个预测框融合了全局信息,实现了端到端的高效训练。

此外,实验结果令人瞩目,不仅在速度上超越了R-CNN和DPM(达到45帧每秒),在精度方面也实现了显著提升。同时,采用更简洁的网络结构Fast YOLO,在保证精度的前提下,实现了155帧每秒的高效运行。

在这里插入图片描述

(三)网络结构:

在这里插入图片描述

YOLO的backbone仍然采用了分类网络,其后两层改用全卷积层,输出一个7×7×30的特征层,每个采样点均整合了全局特征信息。

(注意由于使用了全卷积,图像必须是统一448×448大小)

(四)Unified Detection:

在这里插入图片描述

这里是 YOLO 的点睛之笔;

YOLO旨在实现端到端(end-to-end)的训练,不再依赖anchor boxes或default boxes,而是直接将图像分割为S×S个网格区域(文中S=7);

每个区域预测的值为:

  1. 该区域覆盖的相应物体的 B 个坐标框的 4 个值(文中 B=2),分别为 \lbrace x,y,w,h \rbrace,同时输出这 B 个预测框的置信度 p_b,选取置信度最高的那个预测框作为最终的结果;
  2. 该区域覆盖物体的分类置信度 C,其中在 VOC 数据集中 C 是长度为 20 的分类向量;

当且仅当物体的真值框中心位于相应的区域内时,该区域才能被标注为正样本,其置信度定义为:

在这里插入图片描述

即相应物体预测框与真值框的交并比(IOU);

因此每个区域生成 B×(4+1)+C=30 个预测值,最后全连接层的输出大小为 S×S×30

通过 B 个预测 box 生成置信度分数,旨在提高预测结果的容错性;虽然增大 B 可以增强模型的鲁棒性,但同时会导致全连接层的计算复杂度显著提升。

(五)实验细节:

5.1 激活函数:

激活函数使用了 Leaky ReLU:

在这里插入图片描述

5.2 坐标归一化:

将预测的坐标值 \lbrace x_p,y_p,w_p,h_p \rbrace 归一化为:

x_p=(x-x_b)/L,y_p=(y-y_b)/L

w_p=w/W,h_p=h/W

其中:

  1. x,y,w,h 代表真值框的坐标;
  2. x_b,y_b 表示对应区域的中心点坐标;
  3. W 被定义为图像的边长,具体数值为448;
  4. L 被定义为步长,其计算公式为W/S

5.3 Loss 函数:

Loss 函数使用了均方差损失函数;

同时为了调节正负样本不均衡问题,引入了两个权重参数:

\lambda_{coord}=5,具体体现正类样本的坐标回归权重参数;\lambda_{noobj}=0.5,具体体现负类样本的置信度权重参数。

负样本的预测坐标和类别向量不参与训练;

最终 Loss 定义如下:

在这里插入图片描述

5.4 训练细节:

batch_size=64

momentum=0.9

weight decay=0.0005

learning rate10^{-3} 先升到 10^{-2} 再降到 10^{-4}

drop rate=0.5

(六)实验结果:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(作者挑的图好奇怪,,,)

全部评论 (0)

还没有任何评论哟~