YOLOv3详解

如题所述

第1个回答 2022-06-26

     YOLO是“You Only Look Once”的简称，它虽然不是最精确的算法，但在精确度和速度之间选择的折中，效果也是相当不错。YOLOv3借鉴了YOLOv1和YOLOv2，虽然没有太多的创新点，但在保持YOLO家族速度的优势的同时，提升了检测精度，尤其对于小物体的检测能力。YOLOv3算法使用一个单独神经网络作用在图像上，将图像划分多个区域并且预测边界框和每个区域的概率。

     YOLOv3仅使用卷积层，使其成为一个全卷积网络（FCN）。文章中，作者提出一个新的特征提取网络，Darknet-53。正如其名，它包含53个卷积层，每个后面跟随着batch normalization层和leaky ReLU层。没有池化层，使用步幅为2的卷积层替代池化层进行特征图的降采样过程，这样可以有效阻止由于池化层导致的低层级特征的损失。Darknet-53网络如下图左边所示。

     输入是。输出是带有识别类的边界框列表，每个边界框由六个参数表示。如果表示80个类别，那么每个边界框由85个数字表示。
     在YOLO中，预测过程使用一个卷积，所以输入是一个特征图。由于使用卷积，因此预测图正好是特征图大小（卷积只是用于改变通道数）。在YOLOv3中，此预测图是每个cell预测固定数量的边界框。
     如上图所示，预测图的深度为75，假设预测图深度为，表示每个cell可以预测的边界框数量。这些个边界框可以指定检测到一个物体。每个边界框有个特征，分别描述中心点坐标和宽高（四个）和物体分数（一个）以及个类置信度（上图中）。YOLOv3每个cell预测三个边界框。
     如果对象的中心（GT框中心）落在该cell感受野范围内，我们希望预测图的每个单元格都能通过其中一个边界框预测对象。其中只有一个边界框负责检测物体，首先我们需要确定此边界框属于哪个cell。
     为了实现上面的想法，我们将原始图像分割为最后预测图维度大小的网格。如下图所示，输入图像维度为，步幅为32（最后的预测图降采样32倍），最后预测图维度为，所以我们将原始图像划分为的网格。

     直接预测框的宽高会导致训练时不稳定的梯度问题，因此，现在的很多目标检测方法使用log空间转换或者简单的偏移（offset）到称为锚框的预定义默认边界框。然后将这些变换应用到锚框以获得预测，YOLOv3具有三个锚框，可以预测每个单元格三个边界框。
     锚框是边界框的先验，是使用k均值聚类在COCO数据集上计算的。我们将预测框的宽度和高度，以表示距聚类质心的偏移量。
     以下公式描述了如何转换网络输出以获得边界框预测：

这里分别是我们预测的中心坐标、宽度和高度。是网络的输出。是网格从顶左部的坐标。是锚框的维度（见下图）。

     通过sigmoid函数进行中心坐标预测，强制将值限制在0和1之间。YOLO不是预测边界框中心的绝对坐标，它预测的是偏移量：相对于预测对象的网格单元的左上角；通过特征图cell归一化维度。
     例如，考虑上面狗的图像。如果预测中心坐标是，意味着中心在（因为红色框左上角坐标是）。但是如果预测的坐标大于1，例如，意味着中心在，现在中心在红色框右边，但是我们只能使用红色框对对象预测负责，所以我们添加一个sidmoid函数强制限制在0和1之间。

     通过对输出应用对数空间转换，然后与锚框相乘，可以预测边界框的尺寸（如上面的计算公式）。

     物体分数表示一个边界框包含一个物体的概率，对于红色框和其周围的框几乎都为1，但边角的框可能几乎都为0。物体分数也通过一个sigmoid函数，表示概率值。
     类置信度表示检测到的物体属于一个具体类的概率值，以前的YOLO版本使用softmax将类分数转化为类概率。在YOLOv3中作者决定使用sigmoid函数取代，原因是softmax假设类之间都是互斥的，例如属于“Person”就不能表示属于“Woman”，然而很多情况是这个物体既是“Person”也是“Woman”。

     为了识别更多的物体，尤其小物体，YOLOv3使用三个不同尺度进行预测（不仅仅只使用）。三个不同尺度步幅分别是32、16和8。这意味着，输入图像，检测尺度分别为、和（如下图或者更详细如图2所示）。
     YOLOv3为每种下采样尺度设定3个先验框，总共聚类9个不同尺寸先验框。在COCO数据集上9个先验框分别是：。下表是9个先验框分配情况：

     我们的网络生成10647个锚框，而图像中只有一个狗，怎么将10647个框减少为1个呢？首先，我们通过物体分数过滤一些锚框，例如低于阈值（假设0.5）的锚框直接舍去；然后，使用NMS（非极大值抑制）解决多个锚框检测一个物体的问题（例如红色框的3个锚框检测一个框或者连续的cell检测相同的物体，产生冗余），NMS用于去除多个检测框。
     具体使用以下步骤：抛弃分数低的框（意味着框对于检测一个类信心不大）；当多个框重合度高且都检测同一个物体时只选择一个框（NMS）。
     为了更方便理解，我们选用上面的汽车图像。首先，我们使用阈值进行过滤一部分锚框。模型有个数，每个盒子由85个数字描述。将分割为下面的形状：box_confidence：表示个cell，每个cell5个框，每个框有物体的置信度概率；boxes：表示每个cell5个框，每个框的表示；box_class_probs：表示每个cell5个框，每个框80个类检测概率。
     即使通过类分数阈值过滤一部分锚框，还剩下很多重合的框。第二个过程叫NMS，里面有个IoU，如下图所示。

     下图给出更加详细的输入输出情况：

文章原文： https://medium.com/analytics-vidhya/yolo-v3-theory-explained-33100f6d193
论文原文： https://pjreddie.com/media/files/papers/YOLOv3.pdf
YOLOv3深入理解： https://www.jianshu.com/p/d13ae1055302
keras实现YOLOv3博客： https://blog.csdn.net/weixin_44791964/article/details/103276106
What new in YOLOv3?： https://towardsdatascience.com/yolo-v3-object-detection-53fb7d3bfe6b

相似回答

YOLOv3详解答：以前的YOLO版本使用softmax将类分数转化为类概率。在YOLOv3中作者决定使用sigmoid函数取代，原因是softmax假设类之间都是互斥的，例如属于“Person”就不能表示属于“Woman”，然而很多情况是这个物体既是“Person”也是“Woman”。

目标检测-YOLOv3答：YOLOv3对v1进行了多项改进。边界框预测使用聚类得到的锚框。网络预测边界框的四个坐标值，如果单元格偏移量为，且先验边界框的宽度和高度为，则预测值如下：YOLOv3使用sigmoid逻辑回归预测每个边界框的objectness score，如果某个边界框与真实框的重合度最高，则其objectness score应为1。其他框即使也与真...

YOLOV3简介答：yolo_v3只会对1个prior进行操作，也就是那个最佳prior。而logistic回归就是用来从9个anchor priors中找到objectness score(目标存在可能性得分)最高的那一个。

YOLO模型详解答：YOLO v3在预测物体概率时，选择sigmoid函数而非softmax，因为sigmoid允许概率累加，这在物体分类时更为合适。模型在三个不同尺度（32、16、8）下进行预测，通过上采样和下采样技术优化小物体的检测。每个尺度下有3个锚点，总计9个，以提高检测精度。输出处理中，通过置信度阈值筛选和非最大值抑制（NMS）...

...检测算法(R-CNN,fastR-CNN,fasterR-CNN,yolo,SSD,yoloV2,yoloV3)答：是目前目标检测领域的主流算法之一。总之，目标检测算法的发展经历了多个阶段，从最初的R-CNN，到后来的Fast R-CNN、Faster R-CNN，再到yolo、SSD、yoloV2和yoloV3等。这些算法各有优缺点，需要根据实际需求进行选择。当前目标检测领域的主要难点包括提高准确率、提高速度和处理多尺度目标等。

学Yolo?必须要知道的基础内容答：YoloV3的飞跃 YOLOv3的革新在于引入多尺度特征，丰富先验框，以及调整网络结构和分类方法。它通过Darknet-53和残差连接，构建了更为强大的基础网络，配合K-means生成的9种尺寸的先验框，实现了更精细的目标检测。同时，logistic回归的使用解决了类别重叠问题，输出的预测结果包含3个尺度的N通道，每个通道...

Yolov3理论详解答：yolov3一共有三个YOLO层分别去训练网络，为什么有三个，较小的特征图有比较大的视野，教大的特征图有比较小的视野，这样yolo3就拥有了既能识别大目标也能识别小目标的能力，同时，一个点既能是一种分类，也可以属于另外的分类.8.好了,pytorch执行loss.back()，反向传播，就开始训练了。

大家正在搜

YOLOV3小白 YOLO3 YOLO卡 YOLO yolov1 到yolov3 yolov3怎么用 yolov3训练参数 yolov3什么时候出来的 yolov3测试