yolo及yolo的变体
anchor boxes (锚框)
intersection over union 并集交集
用于计算两个边界框的差异程度
bounding box predictions 边界框预测
non maximum suppression非极大值抑制
为了分离这些边界框并为每个对象获得单个边界框,我们使用IOU。这种获取单个边界框并分离不同边界框的技术称为非极大值抑制。分别对这些边界框应用非最大抑制
YOLO(You Only Look Once)是一种广泛使用的实时对象检测算法,因其速度快且性能优越而受到欢迎。YOLO的变体,如YOLOv2、YOLOv3和YOLOv4,进一步改进了算法的精度和效率。理解YOLO及其变体需要掌握几个关键概念:锚框(Anchor Boxes)、交并比(Intersection over Union, IoU)、边界框预测(Bounding Box Predictions)和非极大值抑制(Non-Maximum Suppression, NMS)。
YOLO系列算法的基本思想是将对象检测问题转化为一个单阶段的回归问题,将输入图像分割成一个网格,每个网格单元直接预测对象的类别和边界框。YOLO的变体在多个方面进行了改进,例如:
锚框是预定义的一组矩形框,用于在图像中提供不同的比例和宽高比的初始边界框。这些锚框通过与预测的偏移量相结合,生成最终的边界框。YOLOv2及以后的版本使用锚框来提高检测精度和对不同大小和形状对象的适应能力。
锚框是在训练数据中通过K-means聚类或其他方法预定义的。每个锚框有一个固定的宽高比和尺寸,网络学习的是如何调整这些锚框以更好地匹配对象。
IoU是衡量两个边界框重叠程度的指标,计算公式如下:
KaTeX parse error: Undefined control sequence: \[ at position 2: \̲[̲ \text{IoU} = \…
其中,交集(Intersection Area)是两个边界框重叠区域的面积,并集(Union Area)是两个边界框的总面积减去重叠区域的面积。IoU的取值范围是0到1,值越高表示两个边界框越相似。
在YOLO算法中,每个网格单元预测多个边界框(通常与锚框相关)。每个边界框预测包含以下信息:
NMS用于从大量重叠的边界框中选择最优的边界框,步骤如下:
NMS的目的是减少重叠的预测框,只保留最有可能的框,从而提高检测的准确性。
2D目标检测几乎是一个已经完成的任务,但是3D目标检测还需要进一步研究。https://www.kaggle.com/code/sakshaymahna/lyft-3d-object-detection-eda#Videos