【论文阅读笔记】YOLO v1——You Only Look Once: Unified, Real-Time Object Detection
You Only Look Once: Unified, Real-Time Object Detection
- (一)论文地址:
-
(二)核心思想:
-
(三)网络结构:
-
(四)Unified Detection:
-
(五)实验细节:
-
- 5.1 激活函数选择:
- 5.2 坐标归一化处理:
- 5.3 损失函数设计:
- 5.4 训练参数设置:
-
(六)实验结果:
-
(一)论文地址:
https://arxiv.org/pdf/1506.02640.pdf
(二)核心思想:
YOLO v1 的提出标志着 one-stage 方法的开创性发展,采用全局全连接方法,作者将目标检测问题重新定义为回归问题,每个预测框融合了全局信息,实现了端到端的高效训练。
此外,实验结果令人瞩目,不仅在速度上超越了R-CNN和DPM(达到45帧每秒),在精度方面也实现了显著提升。同时,采用更简洁的网络结构Fast YOLO,在保证精度的前提下,实现了155帧每秒的高效运行。

(三)网络结构:

YOLO的backbone仍然采用了分类网络,其后两层改用全卷积层,输出一个7×7×30的特征层,每个采样点均整合了全局特征信息。
(注意由于使用了全卷积,图像必须是统一448×448大小)
(四)Unified Detection:

这里是 YOLO 的点睛之笔;
YOLO旨在实现端到端(end-to-end)的训练,不再依赖anchor boxes或default boxes,而是直接将图像分割为S×S个网格区域(文中S=7);
每个区域预测的值为:
- 该区域覆盖的相应物体的 B 个坐标框的 4 个值(文中 B=2),分别为 \lbrace x,y,w,h \rbrace,同时输出这 B 个预测框的置信度 p_b,选取置信度最高的那个预测框作为最终的结果;
- 该区域覆盖物体的分类置信度 C,其中在 VOC 数据集中 C 是长度为 20 的分类向量;
当且仅当物体的真值框中心位于相应的区域内时,该区域才能被标注为正样本,其置信度定义为:

即相应物体预测框与真值框的交并比(IOU);
因此每个区域生成 B×(4+1)+C=30 个预测值,最后全连接层的输出大小为 S×S×30;
通过 B 个预测 box 生成置信度分数,旨在提高预测结果的容错性;虽然增大 B 可以增强模型的鲁棒性,但同时会导致全连接层的计算复杂度显著提升。
(五)实验细节:
5.1 激活函数:
激活函数使用了 Leaky ReLU:

5.2 坐标归一化:
将预测的坐标值 \lbrace x_p,y_p,w_p,h_p \rbrace 归一化为:
x_p=(x-x_b)/L,y_p=(y-y_b)/L
w_p=w/W,h_p=h/W
其中:
- x,y,w,h 代表真值框的坐标;
- x_b,y_b 表示对应区域的中心点坐标;
- W 被定义为图像的边长,具体数值为448;
- L 被定义为步长,其计算公式为W/S;
5.3 Loss 函数:
Loss 函数使用了均方差损失函数;
同时为了调节正负样本不均衡问题,引入了两个权重参数:
\lambda_{coord}=5,具体体现正类样本的坐标回归权重参数;\lambda_{noobj}=0.5,具体体现负类样本的置信度权重参数。
负样本的预测坐标和类别向量不参与训练;
最终 Loss 定义如下:

5.4 训练细节:
batch_size=64
momentum=0.9
weight decay=0.0005
learning rate 从 10^{-3} 先升到 10^{-2} 再降到 10^{-4};
drop rate=0.5
(六)实验结果:



(作者挑的图好奇怪,,,)
