当前位置：网站首页>基于YOLOv3的口罩佩戴检测

基于YOLOv3的口罩佩戴检测

2022-07-05 17:20:00 【小段学长】

摘要

为解决市民口罩佩戴目标检测中因小尺寸目标较多导致其识别精度不高的问题，提出一种基于ＹＯＬＯｖ３改进的算法Ｍ＿ＹＯＬＯｖ３。重构特征金字塔机制，把原本３＊３的类金字塔结构扩建为４＊４尺寸，把先验框数量由９增加到１６，通过以上方法降低神经网络感受野，增强Ｍ＿ＹＯＬＯｖ３对小尺寸目标的敏感度。将原有的损失函数ＩｏＵ替换为ＤＩｏＵ，解决边框回归时难以确认梯度下降方向的问题。基于网络公开的４０６５张口罩数据集的实验结果表明，Ｍ＿ＹＯＬＯｖ３的ｍＡＰ（平均精度均值）为８８．４，较Ｔｉｎｙ＿ＹＯＬＯｖ３和ＹＯＬＯｖ３的ｍＡＰ分别提升了１５．９和７．２。
关键词 目标检测；ＹＯＬＯｖ３；口罩佩戴检测；特征金字塔；卷积神经网络

引言

2020年,新冠肺炎肆虐全球,正确佩戴口罩是阻止病毒在人与人之间相互传播的重要举措。通用算法几乎都能运用于口罩佩戴检测[1],但像人员遮挡、目标对象较小、密集人群等问题,通用算法检测出来的效果并不是十分理想。为了解决这些问题,研究者们进行了大量的研究工作并取得了显著进展:Pang等[2]设计了基于掩码的空间注意力机制模块,让模型更加关注于行人未被遮挡部分的特征; Liu等[3]将全卷积网络与可变性卷积思想相结合,为了增加模型特征编码的灵活性,采用了位置敏感的DCN [4]池化,让模型尽可能多地从行人可见的部分中学习相应特征,来预防其它物体的遮挡干扰。随着计算机视觉技术不断的发展,目标检测技术也在不断优化，大致分为两类:双步 (Two-Stage) 法和单步(One-Stage)法。相比而言,这两类算法也是相互对立的,双步法检测精度高,而单步法检测速度快。最经典的单步法有SSD[5] (singleshot multibox detector)、YOLO[6-9] (youonlylookonce)系列算法;双步法有R-CNN(region conventionalneuralnetwork)系列算法。考虑到在实际监控下的人员检测任务中需要达到一种能实时检测的状态,而YOLO系列网络在检测速度方面可以保证实时性,其中第3代版本 YOLOV3同时兼顾了检测的时间和精度,相比其它更高的版本,YOLOV3有着更成熟、更稳定的技术,所以本文在通用的目标检测算法 YOLOV3的基础上,对该算法进行改进,希望得到更好的检测效果。

1 YOLOV3算法原理

YOLOV3是Redmon 等提出的,主要由骨干网络Darknet-53和YOLO检测层组成,Darknet-53结构主要作用是提取图像的特征信息,YOLO 层是用来预测其类别和位置信息。该算法的骨干网络结构如图1所示。YOLOV3 算法有明显的两大优势:第一大优势是采用了以Darknet53 [10]网络作为主干特征提取网络,并结合了 ResNet残差网络结构的思想[11]。卷积层主要包括两类滤波器,分别是 1×1和3×3,前一种滤波器是用于压缩特征,后一种滤波器的作用主要是通过减少宽度和高度,来扩展通道的数量。这种结构的最大特点之一就是能通过增加相应的深度来提高准确率,但是也会在训练模型中发生梯度爆炸以及梯度消失的问题,YOLOV3 算法内部的残差块使用了跳跃连接,促进了多个不同特征的融合学习。
在这里插入图片描述

图1 YOLOV3主要网络结构
针对尺寸不同的检测图像,YOLOV3算法运用了13×13, 26×26,52×52尺度的特征图实行检测[12],由于每个尺度的感受野都各不相同,检测图像的大小也有所区分,尺度越小的反而检测大的图像,即13×13检测大尺寸图像,而 52×52检测小尺寸图像,26×26检测中等图像。对于每个尺度分支来说,在每个网格中会检测出3个结果,这是因为每个尺度下会有 3 个先验框 (anchorbox), 是根据 K-Means聚类生成的。最后将3次检测的结果整合使用非极大值抑制 (non-maximumsuppression,NMS),获得结果。举例来说,输入一张需要检测的图像,刚开始将其划分为S×S的网格,需要预测C 个类别,则最终3个规模获得的张量是S×S× [3× (5+C)],其中包含了目标边框的 4个偏移坐标和置信度得分,因而增强了对小尺度对象的检测能力。这也是 YOLOV3算法与其它算法相比的另一大优势。但是直接应用于自然场合下的口罩佩戴检测任务还是有一些不足。其一,YOLOV3虽然在小目标的检测精度上有一定的提升,但同时也出现了浅层特征提取不充分的问题;其二,YOLOV3预测的准确性是使用IoU (intersectionoverunion)损失函数来判定预测框的好坏,但当IoU 的值增大时,检测的精确率会有所下降;其三,对于自然场景下被遮住、密集人群以及小尺度的目标检测等问题, YOLOV3仍有不足的地方。针对以上问题,本文为了提升口罩在自然环境下的目标检测算法的准确率,以 YOLOV3 算法为基础进行了改进和优化。

2 改进的YOLOv3算法

本文对 YOLOV3的改进主要包括3个方面,分别是对主网络结构、特征增强网络和IoU 损失函数的改进。

2.1 特征提取网络Darknet_D

Darknet_３作为YOLOv3的特征提取网络，在原算法中把图片信息进行特征提取后传递给检测器进行边框回归运算，且经原作者ＲｅｄｍｏｎＪ实验证明，Ｄａｒｋｎｅｔ５３在性能和效率上较早期Ｄａｒｋｎｅｔ系列的网络都有显著提升［１］。由于Ｍ＿ＹＯＬＯｖ３会增添一个预测通道，若在浅层网络直接添加此通道进行预测，因卷积层较少，此时的特征图并无有效的语义信息，在此基础上进行预测几乎没有任何参考价值。故Ｍ＿ＹＯＬＯｖ３提出了Ｄａｒｋｎｅｔ＿Ｄ网络，它是于Ｄａｒｋ－ｎｅｔ５３的基础上，在其尾部增添了一个残差结构的特征提取网络。改进后的类特征金字塔使用残差结构３、４、５、６处理后的特征图来进行多尺度预测，如图３所示。
在这里插入图片描述

图３Ｍ＿ＹＯＬＯｖ３的特征提取网络

2.2 类特征金字塔改造

YOLOv３算法原使用的是３＊３结构的类特征金字塔结构，对应９个尺寸的边框。原理是通过Ｄａｒｋｎｅｔ５３的３层Ｒｅｓ＿ｂｏｄｙ结构（其全称为Ｒｅｓｂｌｏｃｋ＿ｂｏｄｙ）类似残差网络的相加原理把各个特征图进行叠加，并且因此得出３个尺寸的预测输出Ｙ。改进算法Ｍ＿ＹＯＬＯｖ３算法将其改造为４＊４的类特征金子塔结构，不仅层次更加分明，对不同尺寸更加敏感，且在每一个类特征金字塔输出层额外增加一个预测候选边框供其使用，则输出的预测值Ｙ会更加准确。此外，在残差结构Ｒｅｓｂｌｏｃｋ＿ｂｏｄｙ中，Ｍ＿ＹＯＬＯｖ３保留了ＹＯＬＯｖ３的ＤＢＬ结构但对其进行参数修改，这种集卷积、归一化、激活函数于一体的网络模块，能够很好保留图像信息并进行特征提取。经过特征金字塔处理后的数据，模型把它打包成４个Ｙ值，每一个Ｙ值由４个’ａｎｃｈｏｒ结构’组成，每一个’ａｎｃｈｏｒ结构’又包含此预测值的中心坐标x、y，偏移值和预测边框的宽高ｗ、ｈ，及其预测类别ｃｌａｓｓｅｓ和置信度ｓｃｏｒｅ，如图４所示。
在这里插入图片描述

图４改进后的类似特征金字塔结构

2.3 先验边框数量增加

原YOLOv３算法一共有９个先验边框，并且用这９个不同大小的边框分成３组，对不同尺度的３个特征图进行预测。
本次实验数据的目标物体尺寸差别较大，某些口罩的像素小于６４＊６４ｐｘ，某些口罩的像素大于５１２＊５１２ｐｘ。这些过大的尺寸差别导致原ＹＯＬＯｖ３算法在口罩数据集上表现欠佳。改进算法Ｍ＿ＹＯＬＯｖ３使用了１６个预测边框作为候选框。其中每４个候选框对应一个特征图，每个特征图使用４个候选边框进行预测。故增加先验边框数量这一做法，能更好适应数据，提高算法识别精度，并增强其泛化能力。

2.4 交并比损失函数替换

在这里插入图片描述

ＩｏＵ（ｉｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒｕｎｉｏｎ）的中文名称是 “交并比”，即为预测边框和真实边框的交集，与两个框的并集之比，在诸多基于深度学习的目标检测算法中，ＩｏＵ都是一项重要的区域计算指标，如式（１）所示，其中Ｂ和Ｂｇｔ分别代表预测框和真实框的面积。
ＹＯＬＯｖ３使用１和ＩｏＵ的差值进行梯度回归，使用该损失函数能够简单有效地收敛训练网络损失值，如式（２）所示。但此损失函数在特定情况下无法正常使用，例如真实边框和预测边框出现无交集的情况，无论边框远近，此时ＬＩｏＵ都恒等于１，那么预测边框和真实边框的远近就没有意义。在这种情况下算法无法判定两个边框的好坏以及损失值收敛的方向，如图５所示
在这里插入图片描述

图5 边框无交集情况
针对这个问题，Rezatofighi H提出了〖G_IoU〗^([10])理念，在原来的损失函数加上了惩罚项，出现边框无交集情况时,两个边框距离越远损失值越大，如式（３）所示。

式中:Ｃ是两个边框的最小外接矩形，在此情况下，出现边框之间无交集情况时，也能判断距离的远近，并因此找到下降梯度。
G_IoU也无法适用于所有情况，若两个边框存在包含关系，如一大一小两边框Ａ和Ｂ，小边框Ａ面积和Ｂ面积的并集等于Ａ的面积，即B^A ⋃▒〖B^B=BA 〗。则在任意包含情况下Loss值始终相等，这就和上述L_IoU出现的问题相似，算法无法找到损失值下降方向，如图６所示。
在这里插入图片描述

图６边框存在包含关系
D_IoU是zhengzhaohui等^([12])在G_IoU的基础上进行了改进从而推论出的另一种交并比损失函数
在这里插入图片描述

式中：ｄ表示两个边框中心点的欧氏距离。ｃ是最小外接矩形的对角线距离。它的计算方式和G_IoU类似，也是在原IoU损失函数的基础上加上了惩罚项。不同的是G_IoU的惩罚项更为合理，能够解决边框出现包含情况时难以找到回归梯度的问题，如图７所示。
在这里插入图片描述

图7 DIoU边框
D_IoU同样也能提供预测边框的移动方向。但若出现两框包含的情况，G_IoU无法适应，而D_IoU不仅能找到预测框移动的方向，并且损失函数收敛十分迅速。
在上述提到的IoU损失函数，其作用都是辅助最终Loss收敛，更合理的IoU损失函数能够使算法更好地拟合数据。
在M_YOLOv3算法中使用D_IoU来替换原有的 L_IoU作为损失函数，在此基础上进行预测框和真实框的交并比计算，经实验验证有更好的检测效果。

2.5 比例系数的增大

在YOLOv3算法中，训练网络的损失函数实际上是由中心点损失、宽高损失、分类损失和置信度损失，这个损失值相加得出，如式（５）所示
Loss=L_xy+L_wh+L_c+L_s (5)
2.4节提到的D_IoU损失函数会改进L_xy和L_wh的计算，使这两个损失值的计算更加合理。由于ＹＯＬＯｖ３是多尺度检测，在损失值收敛时会把每个边框都计算一次。那么宽高较大的边框Ｌｘｙ和Ｌｗｈ的值会偏高，对总体的Ｌｏｓｓ值产生了错误的影响。
为了解决这个问题，原作者提出了比例系数ｂｏｘ＿ｌｏｓｓ＿ｓｃａｌｅ这一指标，它是由数字２和偏移值ｗ和ｈ的乘积做差值计算得出，其中ｗ和ｈ是０到１之间的ｇｒｏｕｎｄ＿ｔｒｕｔｈ宽高偏移值，如式（６）所示。在Ｌｘｙ和Ｌｗｈ计算的最后一步都会进行比例系数放缩，增加小尺寸边框的影响权重，进而减小因先验框尺寸不同而导致的无意义影响

2.6 损失函数的加权修正

如式（５）所示，总Ｌｏｓｓ值由４个独立的Ｌｏｓｓ相加而得。因Ｍ＿ＹＯＬＯｖ３使用了ＤＩｏＵ且增大了比例系数，在式（５）中等号右边４个相加项除Ｌｃ外都进行了加权计算。为平衡４个损失值的影响权重，Ｍ＿ＹＯＬＯｖ３在最终Ｌｏｓｓ计算时，把分类损失值Ｌｃ进行了加权计算，如式（８）所示
在这里插入图片描述

３实验结果及分析

3.1 实验数据准备

3.1.1数据集介绍
本次实验选用公开口罩数据集１，该数据集来自网络，由ｌａｂｅｌｉｍｇ软件标注。按照３００ｐｘ为界限把输入图片分为，小尺寸、中尺寸、大尺寸、超大尺寸（长宽任意属性大于９００ｐｘ），分别有６５８张、１５５７张、５６６张、１３４张，未注明大小有１１５０张，共计４０６５张图片。本数据集与ＶＯＣ２００７数据集格式一致，每一条数据都采用图片与其相对应的ｘｍｌ相结合。每一张图片对应一个ｘｍｌ文件，记录图片上目标物体的各种属性，如目标物体在图片的中心点、标记框的宽高、目标物体的类别等信息。本次数据集中只有两个类，”ｆａｃｅ＿ｍａｓｋ”和”ｆａｃｅ”。在上述的目标物体的属性中，目标物体标记框的长和宽显得尤为重要，它们可以表示目标物体的尺寸。因ＹＯＬＯｖ３原版算法的实验是在ＶＯＣ２００７数据集上进行的，而本次实验的数据是检测人脸和口罩，与ＶＯＣ２００７数据集相比则目标尺寸普遍偏小。故在此把本次数据集和ＶＯＣ２００７数据集的目标物尺寸作比较，按照单边６４、１２８、２５６、５１２为界限进行尺寸大小归类，见表１。
在这里插入图片描述

由此可见，本次数据集的分布更加广泛和细致，且小目标尺寸偏多。改进算法提出的４层金字塔结构，并将ａｎｃｈｏｒｓ数目从９增加到１６的做法，在理论上支持Ｍ＿ＹＯＬＯｖ３能得出更好的识别效果。
3.1.2 数据增强
在深度学习理论中，训练数据越充足，训练模型的效果越好。由于本次实验数据仅４０００余张图片并不充足，使用数据增强手段来模拟更多数据样本就具有很强的必要性。不但能使算法模型有更多的学习样本，同时也因数据增强增加了噪声，减少模型过拟合的现象。
在本次实验中，使用了缩放图片、平移变换、翻转、颜色抖动（ＲＧＢ－＞ＨＳＶ－＞ＲＧＢ）以及ｂｏｘｅｓ的重定位等数据增强手段，确保本次实验数据充足，增强模型的泛化能力，提高算法鲁棒性。

3.2 训练模型的过程

为得到合适的先验框大小，最常用的手段就是对标记数据进行聚类。在诸多聚类方法中，在事先设定好簇的个数条件下，Ｋ－Ｍｅａｎｓ无疑成为了首选方案。
Ｋ－Ｍｅａｎｓ算法思路非常直观，初始人为设定常数Ｋ，Ｋ代表算法最终划分出来的类别数量值。算法会随机选定初始点为质心，并通过计算每一个样本与质心之间的相似度（一般使用欧氏距离），将样本点分类到最相似的一个簇中，接着，重新计算每个簇的质心（即为簇心），重复这样的过程，直到簇心不再改变，最终就确定了每个样本所属的簇以及簇心。Ｍ＿ＹＯＬＯｖ３使用了簇数量为１６的Ｋ－Ｍｅａｎｓ算法进行聚类。得到的１６组ａｎｃｈｏｒｓ后又进行了类似归一化的处理，最终得出ａｎｃｈｏｒｓ尺寸如下：（２３，２３），（３５，３４），（４４，４４），（５３，５４），（６５，６３），（７６，７５），（８９，９１），（１０８，１０５），（１２１，１２３），（１４２，１４２），（１６４，１７５），（１６７，１５８），（１９０，１９０），（２１５，２１２），（２５３，２５４），（３７２，３６２）。括号中的两个值（ｗｉｄｔｈ，ｈｉｇｈｔ）分别代表ａｎｃｈｏｒ的宽和高。
考虑到本次实验的硬件条件，输入图片尺寸统一ｒｅｓｉｚｅ为３５２＊３５２，初始学习率设置为０．００１，在回调过程中使用监视ｖａｌ＿ｌｏｓｓ变化的方法来减小学习率，其中的参数设置为ｐａｔｉｅｎｃｅ＝６，ｆａｃｔｏｒ＝０．４。总训练批次ｅｐｏｃｈ＝８００，ｂａｔｃｈ＿ｓｉｚｅ＝１０，训练网络Ｌｏｓｓ值的收敛情况如图８所示。
在这里插入图片描述

图8 Loss收敛

3.3 评价指标及实验结果

3.3.1 对于小目标的识别效果
在对输入图片进行检测的时候，一张图片往往包括很多个目标，就容易发生漏检的情况，尤其是小尺寸目标物的漏检情况更为常见，如图９所示（文本框较长的矩形框代表 “口罩”，文本框较短的矩形框代表 “人脸”）。图９中ＹＯＬＯｖ３算法和Ｔｉｎｙ＿ＹＯＬＯｖ３算法发生了漏检情况，而Ｍ＿ＹＯＬＯｖ３凭借多种改进措施，对小目标物更为敏感，不容易发生漏检情况。实验结果表明，改进后的算法，一定程度上改善了对小目标物体识别困难的问题，如图９所示。
在这里插入图片描述

图9 3种算法检测效果对比
3.3.2 困难条件下的识别效果
在实验中，３种检测算法对于多数图片的检测效果比较良好，错误主要发生在混淆和遮挡的数据上。如图10 中，第一排图片的口罩和人脸颜色非常接近，只有Ｍ＿ＹＯＬＯｖ３算法判定正确（文本框较长的矩形框代表 “口罩”，文本框较短的矩形框代表 “人脸”）；第二排图片则是纸折扇遮挡面目，其形状颜色大小都与口罩十分类似，所有算法的识别结果均错误。
3.3.3 ｍＡＰ评价指标
目标检测领域使用的评价指标主要是ｍＡＰ（ｍｅａｎａｖｅｒａｇｅｐｒｅｃｉｓｉｏｎ），平均精度均值，即为ＡＰ的平均值。而ＡＰ则是通过式（９）得出，本质上是选取0.1作为γ的间隔，把每个γ 对应的Ｐｉｎｔｅｒｐ值相加，最后取均值。其中Ｐｉｎｔｅｒｐ是ＰＲ曲线中，以召回率（ｒｅｃａｌｌ）作为横坐标点，曲线所对应的纵坐标值，如式（１０）所示（在计算过程中，若横坐标ｘ１无对应的纵坐标值，则使用最靠近两点ｘ２、ｘ３所对应曲线上的点，做延长线与ｘ＝ｘ１直线相交，交点即为ｘ１对应纵坐标值）
在这里插入图片描述

图11是类别”ｆａｃｅ”对应的Ｐ－Ｒ曲线，在图中可得出Ｍ＿ＹＯＬＯｖ３的ＰＲ曲线略优于未改动的算法。本次实验总共有两个类，”ｆａｃｅ＿ｍａｓｋ”类和”ｆａｃｅ”类。ｍＡＰ值就是对两个类的ＡＰ值求和取平均。
在这里插入图片描述

图11 “face”类别Ｐ－Ｒ曲线

3.3.4 实验结果

经实验得出，Ｍ＿ＹＯＬＯｖ３算法对比原版Ｔｉｎｙ＿ＹＯＬＯｖ３和ＹＯＬＯｖ３算法在ｍＡＰ值上分别提升了１５．９和７．２，检测能力优于原版算法。Ｍ＿ＹＯＬＯｖ３的ｆｐｓ值为２４，能够在一定程度上做到实时检测口罩佩戴情况见表２。
在这里插入图片描述

4 结束语

改进算法Ｍ＿ＹＯＬＯｖ３算法在ＹＯＬＯｖ３的基础上加深特征提取网络并增添预测通道，且使用了更合理的损失函数，改善了ＹＯＬＯｖ３算法对小尺寸目标识别困难的问题，适用于小目标物体的检测。在基于小尺寸目标偏多的口罩数据集实验中得出结论，ｍＡＰ指数相较于原版ＹＯＬＯｖ３提升了７．２。在实验中，部分数据迷惑性极强，例如图１０中女性用纸折扇遮挡口部，文中几个算法都全部错误判定它是口罩。针对这个问题，暂时无法解决，值得下一步去思考并寻找答案，或许使用类似ＤＯＴＡ数据集四点坐标的数据格式会改善这一问题。除ＹＯＬＯｖ３算法外，其它目标检测算法也百家争鸣。作为学者应该紧随时代脚步，不断地学习理解其它的目标检测算法及其网络结构，如单阶段的ＲｅｔｉｎａＮｅｔ［１３］、
ＹＯＬＯｖ４，双阶段的ＤＣＲ、ＳＮＩＰ［１４］、ＳＮＩＰＥＲ等。

参考文献：

[1]NIUZuodong,QINTao,LIHandong,etal.Improvedalgo-
rithmofretinafacefornaturalscenemaskweardetection [J].
ComputerEngineeringandApplications,2020,56 (12):1-7
(inChinese). [牛作东,覃涛,李捍东,等.改进 RetinaFace
的自然场景口罩佩戴检测算法 [J]. 计算机工程与应用,
2020,56 (12):1-7.]
[2]PangY,XieJ,HarisKhan M,etal.Mask-guidedattention
networkforoccludedpedestriandetection [C]//IEEE/CVF
InternationalConferenceon Computer Vision.arXiv,2019:
4967-4975.
[3]Liu T,Luo W, Ma L,etal.Couplednetworkforrobust
pedestriandetection with gated multi-layerfeatureextraction
anddeformableocclusionhandling [J].IEEE Transactionson
ImageProcessing,2020,30:1.
[4]ZhuX,HuH,LinS,etal.DeformableConvNetsV2:More
deformable,betterresults [C]//IEEE/CVF Conferenceon
ComputerVisionandPatternRecognition.IEEE,2019:9308-
9316.
[5]LiuW,AnguelovD,ErhanD,etal.SSD:Singleshotmulti-
boxdetector [C]//EuropeanConferenceonComputerVision.
SpringerInternationalPublishing,2016:21-37.
[6]RedmonJ,DivvalaS,GirshickR,etal.Youonlylookonce:
Unified,real-timeobjectdetection [C]//ComputerVision &
PatternRecognition.IEEE,2016:779-788.
[7]RedmonJ,FarhadiA.YOLO9000:Better,faster,stronger
[C]//IEEEConferenceonComputerVision& PatternRecog-
nition.IEEE,2017:6517-6525.
[8]REDMON J, FARHADI A. YOLOV3: An incremental
improvement [C]//ProceedingsofIEEEConferenceonCom-
puter Vision and Pattern Recognition.Washington:IEEE
Press,2018:1-6.
[9]BochkovskiyA, Wang CY,Liao HYM.YOLOv4:Optimal
speedandaccuracyofobjectdetection [J].arXiv:2004.10934,
2020.
[10]WangY,ZhengJC.Real-timefacedetectionbasedonYOLO
[C]//IEEEInternationalConferenceon KnowledgeInnova-
tionandInvention,2018:221-224.
欢迎大家加我微信交流讨论（请备注csdn上添加）
在这里插入图片描述