Advertisement

手把手教你通过YOLOv5训练自己的目标检测模型

阅读量:

YOLOv5训练自己的数据集整个过程主要有五大步骤:1.环境配置 2.制作数据集 3.数据格式转换 4.模型训练 5.模型测试,以下内容将安装此步骤一一展开介绍。

一. 环境配置

本人的笔记本电脑系统是:Windows11
首先进入YOLOv5开源网址 ,手动下载zip或是git clone 远程仓库,代码文件夹中会有requirements.txt文件,里面描述了所需要的安装包。

安装命令:pip install requirements.txt

二. 制作数据集

a. 找开源的数据,比如kaggle或者一些分享的数据

b. 用Labelimg进行标注,LabelImg 是一个图形化的图像标注工具,主要用于机器学习和计算机视觉领域中的数据预处理。它是由 GitHub 用户 tzutalin 开发的开源项目,基于 Python 和 Qt 框架编写。LabelImg 允许用户手动为图像添加边界框(bounding boxes)标注信息,可以用来训练目标检测、图像分割等任务的模型。它的使用比较简单,参考博客也是一大堆,如果不知道怎么用可以参见这篇博客:LabelImg(目标检测标注工具)的安装与使用教程-博客

三. 数据格式转换

新建文件夹paper_data

并在paper_data下依次新建Annotations,images,ImageSets,labels 四个子文件夹

Annotations: 存放xml文件

images: 存放图片,名字要和xml名字能对应上

ImageSets: 存放图片划分结果,也就是通过split_train_val.py代码将数据分成训练,验证,train.txt 内容如下图中,trainval.txt和val.txt也类似

split_train_val.py 代码,里面的文件夹路径要和上面设置的子文件对应上:

复制代码
 # coding:utf-8

    
  
    
 import os
    
 import random
    
 import argparse
    
  
    
 parser = argparse.ArgumentParser()
    
 #xml文件的地址,根据自己的数据进行修改 xml一般存放在Annotations下
    
 parser.add_argument('--xml_path', default='Annotations', type=str, help='input xml label path')
    
 #数据集的划分,地址选择自己数据下的ImageSets/Main
    
 parser.add_argument('--txt_path', default='ImageSets/Main', type=str, help='output txt label path')
    
 opt = parser.parse_args()
    
  
    
 trainval_percent = 1.0
    
 train_percent = 0.9
    
 xmlfilepath = opt.xml_path
    
 txtsavepath = opt.txt_path
    
 total_xml = os.listdir(xmlfilepath)
    
 if not os.path.exists(txtsavepath):
    
     os.makedirs(txtsavepath)
    
  
    
 num = len(total_xml)
    
 list_index = range(num)
    
 tv = int(num * trainval_percent)
    
 tr = int(tv * train_percent)
    
 trainval = random.sample(list_index, tv)
    
 train = random.sample(trainval, tr)
    
  
    
 file_trainval = open(txtsavepath + '/trainval.txt', 'w')
    
 file_test = open(txtsavepath + '/test.txt', 'w')
    
 file_train = open(txtsavepath + '/train.txt', 'w')
    
 file_val = open(txtsavepath + '/val.txt', 'w')
    
  
    
 for i in list_index:
    
     name = total_xml[i][:-4] + '\n'
    
     if i in trainval:
    
     file_trainval.write(name)
    
     if i in train:
    
         file_train.write(name)
    
     else:
    
         file_val.write(name)
    
     else:
    
     file_test.write(name)
    
  
    
 file_trainval.close()
    
 file_train.close()
    
 file_val.close()
    
 file_test.close()
    
    
    
    

labels: 存放yolo_txt格式,是通过voc_label.py代码进行转换,即将每个xml标注提取bbox信息为txt格式,每个图像对应一个txt文件,文件每一行为一个目标的信息,包括class, x_center, y_center, width, height格式。

voc_label.py 代码,里面的文件夹路径要和上面设置的子文件对应上,classes设置成你自己的标注类别的名字

复制代码
 # -*- coding: utf-8 -*-

    
 import xml.etree.ElementTree as ET
    
 import os
    
 from os import getcwd
    
  
    
 sets = ['train', 'val', 'test']
    
 classes = ['黑葡萄', '绿葡萄', '樱桃', '西瓜', '龙眼', '香蕉', '芒果', '菠萝', '柚子', '草莓', '苹果', '柑橘', '火龙果', '梨子',
    
        '花生', '黄瓜', '土豆', '大蒜', '茄子', '白萝卜', '辣椒', '胡萝卜', '花菜', '白菜', '番茄', '西蓝花', '橙子']  # 改成自己的类别
    
 abs_path = os.getcwd()
    
 print(abs_path)
    
  
    
 def convert(size, box):
    
     dw = 1. / (size[0])
    
     dh = 1. / (size[1])
    
     x = (box[0] + box[1]) / 2.0 - 1
    
     y = (box[2] + box[3]) / 2.0 - 1
    
     w = box[1] - box[0]
    
     h = box[3] - box[2]
    
     x = x * dw
    
     w = w * dw
    
     y = y * dh
    
     h = h * dh
    
     return x, y, w, h
    
  
    
 def convert_annotation(image_id):
    
     in_file = open(r'E:\detect\yolov5\paper_data\Annotations\%s.xml' % (image_id), encoding='UTF-8')
    
     out_file = open(r'E:\detect\yolov5\paper_data\labels\%s.txt' % (image_id), 'w')
    
     tree = ET.parse(in_file)
    
     root = tree.getroot()
    
     size = root.find('size')
    
     w = int(size.find('width').text)
    
     h = int(size.find('height').text)
    
     for obj in root.iter('object'):
    
     difficult = obj.find('difficult').text
    
 #        difficult = obj.find('Difficult').text
    
     cls = obj.find('name').text
    
     if cls not in classes or int(difficult) == 1:
    
         continue
    
     cls_id = classes.index(cls)
    
     xmlbox = obj.find('bndbox')
    
     b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text),
    
          float(xmlbox.find('ymax').text))
    
     b1, b2, b3, b4 = b
    
     # 标注越界修正
    
     if b2 > w:
    
         b2 = w
    
     if b4 > h:
    
         b4 = h
    
     b = (b1, b2, b3, b4)
    
     bb = convert((w, h), b)
    
     out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')
    
  
    
 wd = getcwd()
    
 for image_set in sets:
    
     if not os.path.exists(r'E:\detect\yolov5\paper_data\labels'):
    
     os.makedirs(r'E:\detect\yolov5\paper_data\labels')
    
     image_ids = open(r'E:\detect\yolov5\paper_data\ImageSets\Main\%s.txt' % (image_set)).read().strip().split()
    
     list_file = open(r'E:\detect\yolov5\paper_data\%s.txt' % (image_set), 'w')
    
     for image_id in image_ids:
    
     list_file.write(abs_path + '\images\%s.jpg\n' % (image_id))
    
     convert_annotation(image_id)
    
     list_file.close()
    
    
    
    

四. 模型训练

1. 新建自己的配置文件

train和val设置成上面生成的train.txt和val.txt路径,nc设置成标注的类别个数,names设置成标注的名字

2. 选择一个模型

在yolov5目录下的model文件夹下是模型的配置文件,这边提供s、m、l、x版本,逐渐增大(随着架构的增大,训练时间也是逐渐增大),假设采用yolov5s.yaml,只用修改一个参数,把nc改成自己的类别数,需要取整(可选) 如下:

3. 配置训练模型的参数

以上参数解释如下:
epochs:指的就是训练过程中整个数据集将被迭代多少次,显卡不行你就调小点。
batch-size:一次看完多少张图片才进行权重更新,梯度下降的mini-batch,显卡不行你就调小点。
cfg:存储模型结构的配置文件
data:存储训练、测试数据的文件
img-size:输入图片宽高,显卡不行你就调小点。

4. 直接通过pycharm来run train.py代码就行

训练完之后,会生成很多中间结果,统计结果啥的,根据自己从需求用就行

五. 模型推理测试

配置测试模型的参数

复制代码

runs\detect\exp存放预测结果

全部评论 (0)

还没有任何评论哟~