基于加权双向特征融合的矿区道路落石检测
1.
2.
3.
Road Rockfall Detection in Mining Area Based on Weighted Bidirectional Feature Fusion
1.
2.
3.
通讯作者:
收稿日期: 2023-08-22 修回日期: 2023-11-28
基金资助: |
|
Received: 2023-08-22 Revised: 2023-11-28
作者简介 About authors
顾清华(1981-),男,山东潍坊人,教授,从事矿山智能科学与工程研究工作
关键词:
Keywords:
本文引用格式
顾清华, 杜艺凡, 李萍丰, 王丹.
GU Qinghua, DU Yifan, LI Pingfeng, WANG Dan.
随着人工智能、物联网和大数据技术的蓬勃发展,传统矿山正在向智慧矿山(Dong et al.,2021)和智能化矿山(More et al.,2023)的方向发展,无人驾驶技术(Patel et al.,2021)逐渐应用于矿区。在露天矿区非结构化道路中,除了常规障碍物(行人和矿卡)之外,还存在落石困难样本,这对障碍物检测提出了新的挑战。
基于深度学习的目标检测方法具有优异的检测性能,在矿区障碍物检测方面得到了广泛应用。目前,基于深度学习的目标检测方法可划分为两阶段检测算法RCNN(Girshick et al.,2014)、SPP-Net(He et al.,2015)、Fast-RCNN(Girshick,2015)、Faster-RCNN(Ren et al.,2015)和单阶段检测算法SSD(Liu et al.,2016)、RetinaNet(Lin et al.,2017a)、YOLO(Redmon et al.,2017;刘林芽等,2021;刘孜学等,2022;陈星等,2023)。近年来,对于矿区障碍物的检测,国内外学者相继开展了大量研究(王杰等,2014;高切等,2024)。卢才武等(2020)在Mask R-CNN网络模型的骨干网络中引入扩张卷积,以此扩大感受野范围,从而保证较高的检测精度,但是检测速度不能满足无人驾驶的要求。Cao et al.(2020)利用多激光雷达传感器聚类融合解决目标聚类不充分对障碍物检测的不利影响,但是通过多传感器获取数据需要耗费大量计算资源。Liu et al.(2022)将摄像头和激光雷达进行融合实现了障碍物的检测,然而激光雷达价格昂贵,且容易受矿区烟雾和粉尘的影响。Shi et al.(2021)提出了一种基于激光雷达检测和测距的方法,通过采用网格划分区域增长法对非地点进行聚类,可实现在车辆前方40 m处检测到20~30 cm大小的岩石,但当检测距离较远且落石尺寸较小时,激光雷达存在反射光束稀疏,从而导致漏检。Wang et al.(2023a)通过在YOLOv4网络模型中使用SANet注意力机制,并引用focal损失函数进一步提升算法检测精度,但是YOLOv4网络结构体积较大,不利于部署到移动设备中。阮顺领等(2021)通过改进RepVGG A2+和B-FPN网络结构增强模型对不同类型障碍物的特征提取能力,但是落石数据集尺寸单一,只包含小碎石。上述研究在矿区障碍物检测方面取得了一定的成果,但也存在检测速度慢、多传感器计算冗余、激光雷达易受外界干扰以及对距离较远且尺寸较小的物体反射光线稀疏、网络模型体积大和落石数据集尺寸单一等诸多缺陷。
结合上述分析,本文针对露天矿区非结构化路面落石检测存在的环境复杂、落石尺寸差异较大以及落石与非结构化路面颜色相近的问题,提出了一种加权双向特征融合的矿区非结构化路面落石检测方法。该方法能够兼顾检测精度和检测速度,为复杂环境下露天矿区非结构化路面落石检测提供了更高效的方法,进而保障了无人矿卡的安全行驶。
1 露天矿区非结构化路面落石检测模型
通过对YOLOv5模型进行优化改进,提出了一种基于加权双向特征融合的矿区落石检测方法。
首先,在骨干网络中引入SimAM注意力机制(Yang et al.,2021),在抑制背景环境干扰的同时充分提取特征目标的信息;其次,将PANet结构更换为加权双向特征金字塔(BiFPN)网络结构(Tan et al.,2020),通过自适应的调整不同尺度特征在融合过程中的权重,增强模型对不同尺寸落石的特征提取能力;最后,为了满足无人矿卡实时性的检测要求,在颈部使用GSConv轻量化卷积模块(Li et al.,2022)。改进后的网络模型结构如图1所示。
图1
图1
改进后的YOLOv5(version6.0)网络模型结构
Fig.1
Improved YOLOv5(version6.0) network model structure
2 露天矿区非结构化路面落石检测模型优化
2.1 检测模型主干网络的优化
针对矿区环境复杂且落石与非结构化路面颜色相近的特点,本研究在主干网络中引入SimAM注意力机制,在减弱背景环境干扰的同时,使模型更加关注落石特征信息。如图2所示,与空间注意力机制和通道注意力机制不同,SimAM注意力机制不需要增加额外的参数,可直接推导出3D注意力权值,使用更加灵活有效。为了获得更好的注意力,SimAM注意力机制分别评估了每个神经元的重要性,最小能量计算公式为
式中:
图2
由
当输入特征图经过SimAM注意力机制后,通过Sigmoid激活函数将权值进行归一化处理,将所得神经元权值与原始特征图的特征进行相乘,最终得到输出特征图。
在本研究中,将SimAM注意力机制以2种方式嵌入到YOLOv5网络结构中,如图3所示。第一种方式是将SimAM注意力机制直接嵌入到骨干网络中的SPPF网络模块前,对总体特征图进行处理,抑制背景环境信息的干扰,提取落石目标特征信息;第二种方式是改进主干网络中的C3模块,在进行落石特征信息提取之前进行SimAM注意力机制处理。经过试验对比分析可知第一种方式性能更好。
图3
2.2 检测模型特征融合方式的优化
针对矿区非结构化路面落石尺寸差异较大而导致网络模型检测性能下降的问题,本研究使用加权双向特征金字塔(BiFPN)替换原始PANet结构。如图4所示,YOLOv5采用自底向上的金字塔注意力网络(PAN)(Liu et al.,2020)和自顶向下的特征金字塔网络(FPN)(Lin et al.,2017b)结构融合深层与浅层的信息,由于 PAN网络结构在进行特征信息融合时只采取简单的相加或拼接,导致特征信息不能充分融合。如图5所示,本研究借鉴Effi-cientDet网络中的BiFPN网络。该网络结构有2个核心点,首先,删除了只从单个节点接收输入的节点,以减少冗余计算;其次,增加了不相连节点之间的跳跃连接,使得网络在进行特征融合时能够学习平衡低级特征和高级特征的比例,实现对落石特征信息的加权跨尺度融合。
图4
图5
BiFPN网络结构使用快速归一化方法进行加权融合,计算公式为
式中:
通过加权跨尺度特征融合机制,使得网络模型可以对不同尺寸落石在不同层级的特征采取适当的关注。对于较小尺寸的落石,BiFPN能够保留并融合底层级的细粒特征,并将其与更高层的语义特征相结合,从而提升对较小尺寸落石的检测精度;对于较大尺寸的落石,BiFPN能够通过自适应的特征融合机制,将来自各个层级的特征进行适当的加权融合,使得网络更加关注较大尺寸落石所在的层级,从而提高对较大尺寸落石的检测能力。综上所述,BiFPN通过双向特征融合和自适应权重调整,能够很好地捕捉不同尺寸落石的特征,从而提升模型检测精度。
2.3 检测模型卷积方式的优化
为了确保无人矿卡的安全行驶,检测速度对于检测网络同等重要。大型的深度学习模型很难部署到工业化场景设备中,然而轻量级网络能够有效减小模型的计算量,使模型适用于资源受限的边缘设备。针对现有大多数轻量级网络模型均以牺牲网络检测精度补偿网络检测速度的现象,本研究中网络模型选择在YOLOv5颈部引入 GSConv轻量级卷积模块,在该阶段使用GSConv处理拼接的特征图不仅可以减少冗余信息,而且不需要压缩。如图6所示,GSConv轻量级卷积模块基于深度可分离卷积(DSC)、普通卷积(SC)和通道混洗操作。首先,在输入部分进行一个普通卷积下采样,然后使用DWConv深度卷积,并将2个Conv的结果拼接起来,最后进行shuffle操作,改变通道数,使之前2个卷积的对应通道数数值相邻。
图6
当卷积核的尺寸为
标准卷积可通过深度可分离卷积将计算量进行压缩,可表达为
因此,在对模型贡献能力相同的情况之下,GSConv轻量级卷积的计算成本比普通卷积减少约40%。在保证检测精度提升的前提下,本研究在颈部使用GSConv轻量级卷积模块,降低了模型的计算复杂度,提升了网络模型的检测速度。
3 试验与结果分析
3.1 试验数据集构建及参数配置
本研究的试验数据来源于河南洛阳某金属矿,为了增加数据的多样性,提高模型的稳健性,本试验对原始数据进行了亮度增强、锐度增强、色度增强、旋转90°和添加椒盐噪声(图7),将预处理后的2 856张数据通过labelimg进行标注,最后将试验数据按照8∶1∶1的比例划分为训练集、验证集和测试集。
图7
本试验使用的计算机配置为Intel(R)Core(TM)i9-10920X CPU,NVIDIA Ge Force RTX 3090(24G)GPU,操作系统为Windows10,编程语言为Python3.6,网络模型基于Pytorch 1.7框架搭建,试验参数设置如表1所示。
表1 试验参数设置
Table 1
参数名称 | 参数设置 | 参数名称 | 参数设置 |
---|---|---|---|
图像输入大小 | 640×640×3 | 初试学习率 | 0.01 |
训练批次 | 8 | NMS阈值 | 0.45 |
迭代次数 | 200 | 优化器 | SGD |
3.2 评价指标
本研究采用准确率(P)、召回率(R)、平均精度均值(
上述评价指标的具体计算公式为
式中:TP为正确检测出的落石;FP为误检为落石;FN为未检测出的落石;FigureNumber为检测落石的总数量;TotalTime为检测落石的总时间;c为检测到的落石的数量。检测精度均值(
3.3 露天矿区非结构化路面落石检测性能分析试验
(1)YOLOv5不同版本的对比试验
分别对YOLOv5的4个版本(YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x)进行试验,其不同之处在于模型的大小和计算的复杂度,这4个版本在检测精度与检测速度之间具有不同的权衡,可以满足不同场景下对检测速度和检测精度的需求(表3)。
表3 YOLOv5不同版本的对比试验
Table 3
模型 | 深度因子 | 宽度因子 | mAP@0.5/% | 检测速度 /FPS | 模型大小/M |
---|---|---|---|---|---|
YOLOv5s | 0.33 | 0.5 | 90.3 | 60.5 | 13.7 |
YOLOv5m | 0.65 | 0.75 | 90.9 | 48.5 | 41.9 |
YOLOv5l | 1 | 1 | 91.5 | 39.5 | 91.6 |
YOLOv5x | 1.33 | 1.25 | 91.9 | 37.2 | 170.2 |
从表3可以看出,YOLOv5s至YOLOv5x版本的检测精度依次提升,检测速度急剧下降,原因是从YOLOv5s至YOLOv5x模型大小明显增加。由于检测目标单一,当使用YOLOv5m、YOLOv5l和YOLOv5x模型时,由于网络残差结构的个数和卷积核的个数不断增加,对矿区非结构化路面落石特征提取操作次数增多,造成落石特征信息丢失,使得检测精度均值未能得到较明显的提升。在露天矿区非结构化路面的落石检测中,对检测速度有较高的要求,因此,在mAP差别不大的4个版本之中,最终选择使用较为轻量级的YOLOv5s模型。
(2)SimAM注意力机制2种嵌入方式性能对比
在确定本研究算法的最终方案过程中,将SimAM注意力机制以2种方式嵌入到主干网络中,具体实现方式见第2.1小节,试验结果如表4所示。
表4 SimAM注意力机制2种嵌入方式性能对比
Table 4
嵌入方式 | P/% | R/% | mAP@0.5/% | 检测速度/FPS |
---|---|---|---|---|
方式一 | 91.2 | 87.1 | 91.6 | 60.8 |
方式二 | 90.4 | 87.9 | 91.1 | 61.2 |
从表4可以看出,方式二的检测速度优于方式一,原因在于方式二使用SimAM注意力机制替换C3模块中的Bottleneck结构。SimAM是一种无参注意力机制,相较于原始C3模块,使用SimAM注意力机制替换Bottleneck结构后C3模块的参数量更小,因此,检测速度得到提升。但是Bottleneck结构具有跨层连接的功能,在去掉该结构之后,网络模型的特征提取能力减弱,因此方式二的检测精度低于方式一。综合考虑各方面因素,本试验选择第一种嵌入方案。
(3)不同轻量化方式的对比试验
传统卷积操作输出的特征图包含丰富甚至冗余的图像特征,目的是对原始图像特征进行全面提取,在该过程中存在大量的冗余计算,本试验引入轻量化模块,进行Ghost(Han et al.,2020)和GSConv这2种轻量化方式的对比试验。
从表5可以看出,YOLOv5s分别结合Ghost和GSConv这2种轻量级网络,检测速度均得到明显提升。YOLOv5s结合GSConv轻量级模块后检测速度得到明显提升,检测精度也有所提升,而YOLOv5s结合Ghost轻量级模块后检测精度下降了1.4%。综合各方面因素,本试验选择YOLOv5s结合GSConv轻量级卷积模块。
表5 不同轻量化方式的对比试验
Table 5
模型 | Ghost | GSConv | P/% | R/% | mAP@0.5/% | 检测速度 /FPS | 模型大小 /M |
---|---|---|---|---|---|---|---|
0 | √ | 87.3 | 86.7 | 88.9 | 65.7 | 9.7 | |
1 | √ | 90.5 | 86.4 | 90.8 | 63.9 | 12.4 | |
2 | 89.9 | 85.9 | 90.3 | 60.5 | 13.7 |
(4)消融试验
为了验证本文方法中各模块对整体的贡献,本研究分别在基线模型上进行调整,通过对比BiFPN加权双向特征金字塔、SimAM注意力机制和轻量级卷积GSConv这3个改进部分进行消融试验,评估每个改进部分的有效性。
如表6所示,在颈部引入BiFPN加权双向特征金字塔后,mAP@0.5上升了1.5%,检测速度下降了1.7FPS;在主干网络中加入SimAM注意力机制后,mAP@0.5上升了1.3%,检测速度基本保持不变,将颈部普通卷积替换为轻量级模块GSConv后,mAP@0.5上升幅度较小,检测速度提升了3.4FPS;集成以上3个改进模块的YOLOv5s网络模型,最终mAP@0.5达到92.8%,相比原始网络模型,YOLOv5s模型的检测精度提高了2.5%,检测速度达到63.1FPS,比原始网络模型提高了2.6FPS。
表6 不同模块优化性能对比
Table 6
模型 | BiFPN | SimAM | GSConv | P/% | R/% | mAP@0.5/% | 检测速度 /FPS |
---|---|---|---|---|---|---|---|
0 | 89.9 | 85.9 | 90.3 | 60.5 | |||
1 | √ | 91.5 | 88.4 | 91.8 | 58.8 | ||
2 | √ | 91.2 | 87.1 | 91.6 | 60.8 | ||
3 | √ | 90.5 | 86.4 | 90.8 | 63.9 | ||
4 | √ | √ | 92.3 | 89.1 | 92.5 | 59.2 | |
5 | √ | √ | 92.1 | 88.3 | 92.2 | 62.1 | |
6 | √ | √ | 91.6 | 88.4 | 91.9 | 63.3 | |
7 | √ | √ | √ | 92.5 | 89.8 | 92.8 | 63.1 |
如图8所示,2种算法在训练过程中验证集的损失值均随着训练批次的增加而减小,在模型训练达到150个批次之后,损失值趋于稳定,且本文算法的损失曲线更加平缓,收敛值更低,证明了本文算法的有效性。
图8
(5)对比试验
表7 不同网络模型的性能对比
Table 7
检测方法 | P/% | R/% | mAP@0.5/% | 检测速度 /FPS | 模型大小 /M |
---|---|---|---|---|---|
Faster R-CNN | 72.8 | 67.2 | 75.8 | 30.9 | 108.9 |
YOLOv4-tiny | 77.8 | 75.1 | 79.2 | 61.7 | 23.1 |
YOLOv5s | 89.9 | 85.9 | 90.3 | 60.5 | 13.7 |
YOLOv7 | 88.3 | 86.7 | 89.4 | 48.5 | 71.3 |
本文算法 | 92.5 | 89.8 | 92.8 | 63.1 | 12.9 |
图9
图9
不同算法模型性能对比曲线
algorithm models
Fig.9
Comparison curves of performance of different
图10
图10
不同网络模型对落石的检测效果
Fig.10
Detection effect of different network models on rockfalls
表7所示为本文所提算法与当前主流的目标检测算法的准确率、召回率、检测精度均值、检测速度和模型大小等性能比较结果,对比算法有Faster R-CNN(Ren et al.,2015)、YOLOv4-tiny(Wang et al.,2021)、YOLOv5s和YOLOv7(Wang et al.,2023b)。
为了验证本文模型的检测效果,综合考虑Faster R-CNN、YOLOv4-tiny、YOLOv5s和YOLOv7这4种算法的检测精度均值和检测速度,选择检测精度均值最高的YOLOv5s算法、检测速度最快的YOLOv4-tiny算法和本文算法对矿区非结构化路面落石进行检测。如图10所示,落石与环境复杂的露天矿区非结构化路面颜色相近。YOLOv4-tiny算法的漏检数为5,且落石检测的置信度较低,说明该模型对矿区非结构化路面落石的特征提取能力不足,YOLOv5s算法的漏检个数为1,表明该模型在矿区非结构化路面落石检测中存在一些不足,本文算法不存在漏检且置信度较高,对不同背景、光照和纹理复杂的路面均能保证较好的检测精度。因此,本文算法可以做到快速识别和精准定位,能够满足无人矿卡的安全行驶。
4 结论
针对露天矿区非结构化路面落石检测存在的问题,提出了基于加权双向特征融合的落石检测模型。该模型通过引入SimAM注意力机制和BiFPN加权双向特征融合网络实现了矿区非结构化路面落石的精准识别,同时引入轻量级卷积GSConv,实现了矿区非结构化路面落石的快速检测。试验结果表明,本文算法获得的检测精度均值达到92.8%,检测速度达到63.1FPS,相比其他检测算法,本文算法具有明显优势。由于矿区施工导致落石数据集采集困难,因此本文未能覆盖不同矿区非结构化路面的落石,在未来的研究中将会进一步扩大样本数据集的多样性。
http://www.goldsci.ac.cn/article/2023/1005-2518/1005-2518-2023-31-6-953.shtml
参考文献
Obstacle detection for autonomous driving vehicles with multi-lidar sensor fusion
[J].,
Rockfall detection method based on improved YOLOX
[J].,
Information acquisition incentive mechanism based on evolutionary game theory
[J].,2021:
A study on the rock block tracking algorithm that utilizes the M-DBT framework
[J/OL].:
Fast R-CNN
[C]//
Rich feature hierarchies for accurate object detection and semantic segmentation
[C]//
Ghostnet:More features from cheap operations
[C]//
Spatial pyramid pooling in deep convolutional networks for visual recognition
[J].,
Slim-neck by GSConv:A better design paradigm of detector architectures for autonomous vehicles
[J]. arXiv:2206.
2017
a.Focal loss for dense object detection[C]//
2017
b.Feature pyramid networks for object detection[C]//
Grape leaf disease identification using improved deep convolutional neural networks
[J].,
Mine track obstacle detection method based on information fusion
[C]//
Research on Rockfall detection method of mountain railway slope based on YOLOv3 algorithm
[J].,
Ssd:Single shot multibox detector
[C]//
Research and implementa-tion of the railway rockfall detection based on modified YO-LOv3
[J].,
An open-pit mine roadway obstacle warning method integrating the object detection and distance threshold model
[J].,
Intelligent mine water management tools—eMetsi and machine learning GUI
[J].,
Overriding learning-based perception systems for control of autonomous unmanned aerial vehicles
[C]//
YOLO9000:Better,faster,stronger
[C]//
Faster R-CNN:Towards real-time object detection with region proposal networks
[J].,
Road negative obstacle detection in open-pit mines based on multi scale feature fusion
[J].,
A new challenge:Detection of small-scale falling rocks on transportation roads in open-pit mines
[J].,
EfficientDet:Scalable and efficient object detection
[C]//
Scaled-YOLOv4:Scaling cross stage partial network
[C]//
Real-time obstacle detection method in the driving process of driverless rail locomotives based on DeblurGANv2 and improved YOLOv4
[J].,
YOLOv7:Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
[C]//
Design and implementation of the rockfall monitoring and warning system based on video image identification
[J].,
Simam:A simple,parameter-free attention module for convolutional neural networks
[C]//
基于改进YOLOX的落石检测方法
[J].,
基于M-DBT框架的岩质边坡落石跟踪算法研究
[J/OL].:
基于YOLOv3算法的山区铁路边坡落石检测方法研究
[J].,
基于改进YOLOv3的铁路落石检测方法研究与实现
[J].,
融合目标检测与距离阈值模型的露天矿行车障碍预警
[J].,
多尺度特征融合的露天矿区道路负障碍检测
[J].,
基于视频图像识别的崩塌落石监测预警系统设计与实现
[J].,
/
〈 | 〉 |