Advertisement

基于卷积神经网络的目标检测

阅读量:

卷积神经网络基础知识

一般情况下,我们假设输入是一个6x6的灰度图像,然后在一个3x3矩阵上构建滤波器.在卷积神经网络中,这个过程被称为滤波器的设计,并用于对该6x6图像执行卷积操作.

  1. 什么是Padding
    假设输入图像的高度与宽度分别为nn(均为正整数),过滤器(kernel)的高度与宽度均为ff \leq n),则经过Padding处理后的输出高度与输出宽度均为(n-f+1)×(n-f+1)
    通过在卷积操作前对图像进行填充处理(Padding),可以使滤波后的图像尺寸保持不变,并且使边缘像素在整个滤波过程中被多次利用而不是仅参与一次计算。
    具体来说,在Padding操作中,在图像边缘添加一层零值像素(Pad size=1时,在上下左右四个方向各添加一层零值)。对于3×3尺寸的过滤器,在Padding层设置为1的情况下,则能够保证输出图像是与输入图样同样尺寸。

Padding有两种模式:
Valid模式下无Padding。
对于输入图像尺寸为nn、过滤器尺寸为ff的情况,输出图像的尺寸计算如下:
(n-f+1)\times(n-f+1)
在Same模式下,
输出与输入图象大小一致。

  1. 卷积步长 卷积步长表示为滤过器在图像平面移动的距离,并且前两部分的步长均被默认设置为1

4.最大值池化和平均值池化
最大值池化的基本思想非常直观。具体来说,该过程将输入图像划分为若干互不重叠的区域段落,并对每个区域计算其最大值。值得注意的是,在实际应用中通常采用大小为2×2的滤窗口进行采样。与之相比,平均值池化的区别在于它计算的是区域内像素强度的平均值。从实际效果来看,在真实场景中,通过提取区域的最大值特征,模型能够识别出诸如垂直边缘、眼睛等关键信息。

目标检测是计算机视觉的核心领域,在图像和视频中对物体进行分类和定位。基于卷积神经网络的目标检测算法主要包括两阶段与单阶段两类方法。

该算法依次生成若干候选框随后会对每个候选框实施分类与定位优化尽管其分类精度一般较高但这需要投入更多的计算时间和资源消耗相比之下该算法在特征解码阶段即可同步输出目标类别及区域信息并凭借更快的速度著称近年来其优化力度不断加大最终在检测精度方面已全面超越传统Two-stage框架下的方法基于此在Two-stage框架下较为知名的代表包括R-CNN及其衍生版本如Fast-RCNN与Faster-RCNN等而在One-stage框架下则以YOLO系列为代表涵盖了从YOLOv1至YOLOv10以及最新的YOLOX等多个分支

前言
本文旨在用尽可能浅显易懂的语言帮助零基础小白读者理解什么是YOLO系列模型及其设计思想与改进思路的具体内容。为了避免简单复制YOLO相关论文内容的做法(这毫无意义),我将采用较为专业的术语与较为通俗易懂的表达方式交替运用:对于每一个新出现的概念都尽量以通俗易懂的方式进行解析,并通过具体事例说明其核心原理与应用价值。这样的学习方式旨在让你能够像阅读故事一样轻松理解YOLO系列模型的基本概念及其发展脉络。

为了使本文力求趣味盎然, 我以葫芦娃为例阐述YOLO的过程(实在让人叫好)。

全部评论 (0)

还没有任何评论哟~