发布时间:2025-02-02作者:李先楚点击:
YOLOv5 是一款图像识别算法,而🐴不是手游。
YOLOv5 锚🐶框🐬
YOLOv5 中的锚框是一种预先定义的边界框,用于指导模🐒型预测对象的位置和大小。它们在训练期间用于生成边界框在 ground truth 推,理。期间用于预测边🐠界框
锚🐬框的目🐝的是:
降低模🐵型复杂度:锚框将预测任务简化为分类问题,即预测对象是否位于给定锚框内。
提升预测精度:根据数据集中对象的尺寸和形状选择🐈适当的锚框有助于提高预测的精度。
YOLOv5 中锚🐟框的结构:
每个🐵 YOLOv5 锚框由以下参数定义:
中心点:(cx, cy):锚框的中心点坐标,通常表示为相对于图片尺寸的归一化值🦋。
宽和高:(w, h):锚框的宽🌺度和高度,也🐼通常表示为归一化值。
尺度和高宽比:(s, r):锚框的尺度(代表面🦢积大小和高宽比)。
锚🦊框的生成🌿:
YOLOv5 根据数🐎据集中的对象尺寸和形状使用 k均值聚类算法生成一组锚框聚类算法。将 ground truth 边界框分配给最接近🦁的锚框,并。优化锚框的参数以最小化聚类误差
锚框在🐼推🌾理中的使用:
在推理期间,YOLOv5 将输入图像划分为网格。对,于每个网🦢格单元模型🐕将:
1. 预测一个置信度分🐋数,表示对象存在于该网🐛格单元的可能性。
2. 对于💐每个锚框,预测相对于该锚框的偏移量 (t_x, t_y, t_w, t_h)。
然后,使,用预测的偏移量🐳来调整锚框的位置和大小得到最终的边界框预测。
mAP(平均🐞精度均值)
YOLOv5 数据集🌴通常采用以下格🐎式:
图像格式:JPEG(.jpg)
PNG(.png)
TIFF(.tif)
BMP(.bmp)
标注格式:a. TXT 格式(带有相🦁对路径)
txt`class_id`:类别🐞 ID
`x_center`:边界框中心点相对于图像宽🐯度的归一化 x 坐标
`y_center`:边界框中心点相对于🌾图像高度的🐳归一化 y 坐标
`width`:边界框相🐠对🌴于图像宽度的归一化宽度
`height`:边界框相对于图像高度的归一化高度🦟
b. JSON 格🐴式🐦
json"images": [
{"file_name": "image1.jpg",
"width": 1280,
"height": 720,
"id": 1
},
...
],"annotations": [
{"image_id": 1,
"category_id": 3,
"bbox": [
456,
287,
213,
128
],
"id": 1
},
...
],"categories": [
{"id": 1,
"name": "person"
},
...
]`images`:包含图像元数据的🕊数组(文件名称🦅、尺寸、ID)
`annotations`:包含标注🪴信息的数组(图像 ID、类 ID、别边界框、ID)
`categories`:包含类别名🪴称及其对应的的 ID 数组
c. OpenCV XML 格式🐎
xml
...
...
`images`:包含🌳图像元数据的列表(ID、名、称尺寸)
`box`:包含标注信息的列表(类别标签🐕、边界框坐标)
2023-08-31
2023-10-14
2023-08-05
2023-08-29
2023-09-25
2023-09-23
2023-09-23
2023-09-11
2023-09-23
2023-09-06