高级检索

基于LMIENet图像增强的矿井下低光环境目标检测方法

田子建, 阳康, 吴佳奇, 陈伟

田子建,阳 康,吴佳奇,等. 基于LMIENet图像增强的矿井下低光环境目标检测方法[J]. 煤炭科学技术,2024,52(5):222−235. DOI: 10.12438/cst.2023-0675
引用本文: 田子建,阳 康,吴佳奇,等. 基于LMIENet图像增强的矿井下低光环境目标检测方法[J]. 煤炭科学技术,2024,52(5):222−235. DOI: 10.12438/cst.2023-0675
TIAN Zijian,YANG Kang,WU Jiaqi,et al. LMIENet enhanced object detection method for low light environment inunderground mines[J]. Coal Science and Technology,2024,52(5):222−235. DOI: 10.12438/cst.2023-0675
Citation: TIAN Zijian,YANG Kang,WU Jiaqi,et al. LMIENet enhanced object detection method for low light environment inunderground mines[J]. Coal Science and Technology,2024,52(5):222−235. DOI: 10.12438/cst.2023-0675

基于LMIENet图像增强的矿井下低光环境目标检测方法

基金项目: 

国家自然科学基金资助项目(52074305,52274160,51874300)

详细信息
    作者简介:

    田子建: (1964—),男,湖南望城人,教授,博士生导师,博士。E-mail:Tianzj0726@126.com

    通讯作者:

    陈伟: (1978—),男,江苏徐州人,教授,博士生导师,博士。E-mail:chenwdavior@163.com

  • 中图分类号: TP391

LMIENet enhanced object detection method for low light environment inunderground mines

Funds: 

National Natural Science Foundation of China (52074305, 52274160, 51874300)

  • 摘要:

    煤矿井下工作环境复杂,存在人造光源亮度低、粉尘多和水气密度大等不利因素,导致现有的目标检测算法在应用到煤矿井下时,存在提取特征困难、目标识别和定位精度低等问题。提出一种煤矿井下低照度环境目标检测算法,由矿井低光图像增强模块LMIENet和目标检测模块组成,使用图像增强模块对原始图像进行画质提升,恢复各类图像信息,再使用目标检测网络对增强图像进行特定目标检测,有效提高检测的精确度。在图像增强模块中,改进Zero-DCE算法设计轻量级增强参数预测网络,计算像素级增强参数矩阵,用于低光照图像的亮度调整和画质增强,该网络通过设计的非参考损失函数隐性衡量图像的增强效果,引导网络进行无监督学习,使网络能够不依赖配对数据集对原始图像进行自适应的画质增强。目标检测模块中,采用YOLO v8n目标检测模型,其轻量化的模型尺寸和高灵活性可避免模型整体复杂度过高;采用Focal-EIoU Loss改进回归损失函数,有效加速模型收敛并提升模型检测精度。实验结果显示:与经典目标检测算法Faster R–CNN,SSD, RetinaNet, FCOS等相比,提出算法在自建矿井人员数据集上表现出色,低光照环境下目标检测的mAP@0.5达到98.0%,mAP@0.5∶0.95达64.8%,在实验环境中单帧图像推理时间仅11 ms,优于其他对比方法,证明提出算法能够有效实现在煤矿井下低照度复杂环境下的目标检测,且耗时短、计算效率高。

    Abstract:

    The underground working environment of coal mines is complex, with unfavorable factors such as low brightness of artificial light sources, high dust content, and high water vapor density. This leads to difficulties in extracting features and low accuracy of object recognition and positioning when existing object detection algorithms are applied to coal mines. An object detection algorithm for low illumination environments in coal mines is proposed, which consists of an low-light mine image enhancement module LMIENet and a object detection module. The image enhancement module is used to improve the image quality of the original image, restore various image information, and then use a target detection network to perform specific target detection on the enhanced image, effectively improving the accuracy of detection. In the image enhancement module, a lightweight enhancement parameter prediction network is designed with reference to the zero reference depth curve estimation algorithm, and the pixel level enhancement parameter matrix is calculated for image quality enhancement and brightness adjustment of low light images. The network implicitly measures the image enhancement effect through the designed non-reference loss function, and guides the network to conduct unsupervised learning, Enable the network to adaptively enhance the image quality of the original image without relying on paired datasets. In the object detection module, the YOLO v8n object detection model is adopted, which has a lightweight model size and high flexibility to avoid excessive overall model complexity; Using Focal EIoU Loss to improve regression loss, accelerate model convergence, and improve model detection accuracy. The experimental results show that compared with classic object detection algorithms such as Faster R–CNN, SSD, RetinaNet, etc., the proposed algorithm performs well on the self-made coal mine object detection dataset, and is effective in object detection in low light environments mAP@0.5 reaches 98.0%, mAP@0.5∶0.95 reaches 64.8%, and the running time of a single frame image in the experimental environment is only 11 ms, which is superior to other comparison methods. It is proven that the proposed algorithm can effectively achieve object detection in low illumination and complex environments in coal mines, with short time consumption and high computational efficiency.

  • 近年随着我国煤矿信息化、智能化水平的不断提高,煤矿井下的智能化视频监控成为了解井下作业人员分布和设备运行状况的有效方法。将目标检测算法应用于煤矿生产安全监控,能起到很好的安全监管和紧急事故预警作用。然而煤矿井下环境受限,粉尘多和光源少使得部分场景下视频监视系统采集的图像普遍呈低光照度的特点[1],且矿井狭长巷道中,普通成像设备工作时容易导致弱曝光、边缘模糊、伪影等现象,捕捉的画面质量低,大量潜在信息无法被视频监视系统有效感知和理解,进而导致视频监控系统漏检率与误报率高的问题[2],因此研究矿井不良光照环境中的图像增强和目标检测算法,提升井下目标检测任务的准确率具有很重要的现实意义。

    目标检测作为计算机视觉领域的重要基础任务之一,其能够对图像中的目标进行分类和准确定位,因此在各类工业场景中均有广泛应用,一直备受关注。最早期的人脸检测通常使用基于滑动窗口和手工特征提取的方法,学者们提出了多元化的检测算法以弥补手工特征提取的缺陷。2012年AlexNet[3]的提出揭开了基于深度学习的目标检测算法序幕,此后涌现出了众多快速、准确、高鲁棒性的经典目标检测算法,如R–CNN[4]系列、YOLO[5]系列、SSD[6],RetinaNet[7]等,使目标检测任务跨过手工特征提取的阶段,取得了不断突破。但是,目标检测的准确率有赖于完整且高质量的清晰图像,然而在煤矿井下环境中,普通成像系统难以平衡感光度与噪点的影响,采集到高质量的图像。尽管依靠控制光圈、曝光时间或使用闪光灯等物理方法可以提高低光条件下的信噪比,但这些方法在增加亮度的同时也增强了噪声并容易导致失焦、运动模糊等问题[8],因此针对低光环境下的目标检测任务仍面临挑战。如何有效地增强原始图像,挖掘低光图像中利于检测目标的潜在信息,促进算法对目标的识别与定位,一直是目标检测领域的热点问题。

    传统的图像增强方法有直方图均衡化,伽马校正等。直方图均衡化通过将反映图像灰度分布规律的直方图利用累积分布函数映射转换成近似的均匀分布,容易丢失部分细节,且对于有高峰的直方图的处理,存在不自然的过度增强、灰度变化不平坦等局限性;伽马校正则通过非线性的色调编码来补偿亮度损失,实现输入像素到输出像素的非线性映射,达到提高图像对比度的目的。龚云等[9]提出基于同态滤波方法的煤矿井下图像增强技术,结合了自适应伽马校正方法,提高图像亮度和对比度的同时也抑制了明暗差距大时的过增强现象。另一种被广泛采用的方法是Retinex理论。Retinex理论将原始图像S假设为光照图像L和反射率图像R的乘积,从原始图像中估计L,分解出R,消除光照不均影响,改善图像视觉效果。但是现有的一些基于Retinex理论的方法[1012]没有明确针对具体图像建模,性能表现往往取决于诸多手动选择的先验信息,而且这些方法在极低光成像任务中会带有严重的噪声和色彩失真,在一些工业场景中也难以取得理想的增强效果。此外,近年基于深度神经网络的图像增强和重建算法也展现了在微光图像增强任务中的优秀性能。WANG等[13],KIM等[14],ZHAO等[15]、田子建等[16]等提出了诸多基于深度神经网络模型的图像增强算法,但是大部分模型需要带有标签的配对数据集来指导网络学习图像增强的过程,或者由于复杂的网络架构引入巨大的参数空间,不可避免地导致了高内存占用和漫长的推理时间,然而实际应用时,深度学习模型的低计算代价和高效的运行速度,在有限的计算资源下或者对执行实时任务的设备尤为重要。

    随着深度学习算法的发展,针对低照度影像数据的目标检测算法也取得了长足进步。近年来,KIM等[17]使用DVENet对夜间低照度环境下监控摄像头获取的图像进行质量改进,可有效增强夜间监控摄像系统的的行人或车辆检测效率。SASAGAWA等[18]提出YOLO-in-the-Dark模型,由基于低光图像生成新RGB图像的SID模型和预测目标的YOLO模型组成,采用知识蒸馏的方法定义生成模型Gule Layer作为SID和YOLO的中间黏合层,相比于同期其他模型可达到更高的检测准确率,但是其生成模型和模型压缩过程需要大量手工处理的带标注训练集。在自动驾驶领域,QU等[19]提出了一种基于循环生成对抗网络的可优化图像转换网络,并在转换网络后添加了目标检测网络,但是该算法受特定光照强度限制,当目标轮廓与背景贴近时,目标仍然难以被检测出。为实现无人机在夜间的行人检测任务,WANG等[20]提出将最优HTC与改进的BM3D算法相结合,开发了一种混合低照度图像增强方法,采用YOLO v3模型实现对增强图像的行人检测,但由于煤矿井下作业场景环境复杂,该算法难以实现理想检测效果。在煤矿作业场景中,南柄飞等[21]、杨艺等[22]研究了井下和综采工作面的的重要目标检测任务,针对井下光照、尘雾等视觉特征对图像进行了讨论,但未提出有效的图像增强方法用于增强模型的低光照场景检测性能。

    基于对现有的低光照环境下的目标检测算法分析,为了不依赖配对数据集进行无监督学习,实现有效的图像增强,并针对实际工况下光照条件受限的矿井下作业人员实现高效、准确的识别与检测,笔者参考Zero-DCE[23]算法设计了井下低光图像增强网络LMIENet(Low-light Mine Image Enhancement Network)。它通过更高阶的像素映射曲线和一组改进的轻量级深度卷积神经网络,采用混合空洞卷积获取更大感受野,进行更多层次的全局多尺度特征融合来估计弱光图像的光增强参数图,对弱光图像进行循环增强。笔者将LMIENet输出的明亮图像作为改进YOLO v8n目标检测模型的输入,并采用Focal-EIoU Loss改进回归损失,加速模型收敛并提升检测精度,组成完整架构,实现矿井下低光照环境中的目标检测任务。

    笔者提出的井下低照度环境目标检测模型的整体架构如图1所示。模型主要由井下低光图像增强网络LMIENet和二维目标检测器组成。井下获取的图像往往具备高噪声、低对比度和不明显的色彩信息等不利于目标识别与定位的特点,因此先将低照度图像作为模型的输入,经过LMIENet输出弱光图像的增强版本。LMIENet由一个轻量级的卷积神经网络进行参数预测,并使用一组非参考损失函数推动学习,无需借助含标注或配对图像的数据集。然后将增强后的清晰明亮图像输入到目标检测网络进行特定目标的检测任务,本文采用轻量级的改进YOLO v8n作为目标检测器。

    图  1  井下低照度环境目标检测模型整体结构
    Figure  1.  Overall structure of underground low illumination environment object detection model

    矿井下部分作业场景的照明条件极其有限,获取的图像也呈低光照的特点,为了有效提高矿井低照度图像的质量,提升亮度的同时也能恢复图像纹理细节,设计了井下低光图像增强网络LMIENet作为图像预处理方法,参考Zero-DCE算法,将低照度图像逐像素映射到其增强版本。矿井低照度图像的灰度直方图像素值绝大部分分布在归一化后[0,0.25]的范围内(图2),所以本文重点关注曲线的低像素值区域及相近部分的特性。

    图  2  低光照井下图像与灰度直方图
    Figure  2.  Low light image and grayscale histogram

    针对矿井下的不良光照环境重新设计了一组光增强曲线,用式(1)来实现输入像素到输出像素之间的映射:

    $$ Y(X;\alpha ) = X + \alpha (X - {X^n}) $$ (1)

    式中,X为输入像素值;Y为输出像素值;$ \alpha $为待学习的光增强参数。为了减少调整过程中像素最大值溢出,将图像像素值归一化到[0,1]。不同$ \alpha $取值的曲线映射关系可以由图3a中看出,n为可通过试验对比选择的超参数。为了获取更宽的像素动态调整范围,应使曲线在低像素值区域能够映射到更高的像素值,因此针对性设计了更高阶的曲线以使曲线在低像素值区域内具备更大的输出值空间。图3b反映了不同参数n对曲线特性的影响,经过多次比较实验确定当n取值为4时,虽然不能保证曲线在高像素值区域的单调性,但是实验中模型针对图像局部的过度曝光获得了一定抑制,对真实矿井环境采集的图片亮度调整效果最理想。

    图  3  映射曲线
    Figure  3.  Mapping curve

    如果采用多次迭代增强,将前一次光增强曲线的输出作为后一次迭代的输入,那么多次的迭代使模型可以在更宽的动态范围内对图像进行调整,第t次增强的输出图像$ {X_t} $可表示为式(2):

    $$ {X_t}({X_{t - 1}};\alpha ) = {X_{t - 1}} + \alpha ({X_{t - 1}} - X_{t - 1}^n) $$ (2)

    式中,$ \alpha $作为全局参数时,上述光增强曲线仍是对图像全局亮度进行调整。为了更好地保留图像的局部特征,实现逐像素的画质增强和亮度调整,需要将参数$ \alpha $扩展到像素级的参数矩阵$ {{\boldsymbol{A}}_n} $,建立多条曲线与所有像素点间的对应关系。上阶段的输出作为现阶段的输入,将待学习的全局参数$ \alpha $扩展为逐像素的参数矩阵$ {{\boldsymbol{A}}_t} $,如式(3)所示:

    $$ {X_t}({X_{t - 1}};{{\boldsymbol{A}}_t}) = {X_{t - 1}} + {{\boldsymbol{A}}_t}({X_{t - 1}} - X_{t - 1}^n) $$ (3)

    式(3)为一个像素级的迭代公式,$ {{\boldsymbol{A}}_t} $是与图像大小一致的曲线参数矩阵。参数矩阵由本文设计的光增强参数预测网络来进行估计。经过多次迭代循环增强,最终可将原始图像调整为正常亮度、纹理清晰、前景目标和背景易于区分,且利于特征提取的增强版本图像。

    图4展示了井下低光图像增强网络LMIENet的完整架构。该模块由一个改进的轻量化增强参数预测网络和T次级联的图像增强迭代单元组成。低光照图像一方面作为初次图像增强迭代单元的输入,另一方面作为增强参数预测网络的输入进行曲线参数矩阵$ {{\boldsymbol{A}}_n} $的参数预测。$ {{\boldsymbol{A}}_n} $在通道维度上划分为$ {A_1} $~$ {A_T} $,分别作为各迭代单元的光增强参数。后续每一次迭代单元的输入都是前一次迭代单元输出的中间表示图像,进行图像循环增强,最终的输出$ {X_T} $为明亮视觉效果的增强图像。

    图  4  井下低光图像增强网络结构
    Figure  4.  Structure of low-light mine image enhancement network

    为了使LMIENet获取自适应于煤矿井下低照度图像的光增强曲线参数,设计了如图5所示的增强参数预测网络,该网络用于训练获取具有最佳矿井图像调整效果的像素级参数矩阵$ {{\boldsymbol{A}}_n} $。网络的输入是低光照图像,输出是一组分RGB通道的曲线参数矩阵$ {{\boldsymbol{A}}_n} $。它由7个卷积层组成,并具有跨层跳跃连接的结构,以保留阶段性提取的特征。在DCE–Net的基础上,在前3层卷积层中增加了并行计算的混合空洞卷积层,扩张率分别设置为1,2,3确保每个像素都参与计算保持信息连续性,并逐层进行通道维度拼接以更大限度地融合不同尺度的特征信息。为了不增加网络参数和额外计算量,前3层每层输出通道数由32变更为16,拼接后与原模型通道数保持一致。前6层卷积层是16或32个大小为3×3且步幅为1的卷积核,采用ReLU激活,最后一层为T×3个3×3步幅为1的卷积核,采用Tanh激活。考虑到为避免破坏相邻像素间的平滑关系,整个网络结构不含下采样和批量归一化层,更大程度保留了图像的全局语义信息和空间相关性。最终输出为与输入图像大小一致的T×3张曲线参数矩阵,作为T次循环增强中RGB通道的像素级深度曲线参数。

    图  5  增强参数预测网络结构
    Figure  5.  Structure of enhancement parameter predict network

    多数卷积神经网络模型因无法获取足够的先验知识,需要依赖大量手工标注或配对的数据集进行监督学习。为了使LMIENet能够进行无监督训练,实现不依赖配对数据及任何数据标签的零参考学习,网络设计了一组非参考损失函数来评估图像增强的质量和效果,通过分析图像本身像素空间差异以及原图像与增强版本图像之间的关联性来对损失进行计算。非参考损失函数由空间一致性损失、曝光控制损失、颜色恒常损失、照度平滑损失4部分组成,每一部分均可微,确保网络可反向传播进行梯度更新。

    1)空间一致性损失$ {L_{{\mathrm{spa}}}} $。将每张图像分为若干个4×4的像素块,通过设计的空间一致性损失鼓励保留输入图像与其增强版本之间相邻区域的差异来增强图像的空间一致性,$ {L_{{\mathrm{spa}}}} $由式(4)计算:

    $$ {L_{{\mathrm{spa}}}} = \frac{1}{K}\sum\limits_{i = 1}^K {\sum\limits_{j \in \varOmega (i)} {{{(|{Y_i} - {Y_j}| - |{I_i} - {I_j}|)}^2}} } $$ (4)

    式中:K为图像划分的像素块数量;$ {Y_i} $和$ {I_i} $为低光图像和增强版本图像第i个像素块的像素平均值;$ {Y_j} $和$ {I_j} $为低光图像和增强版本图像上下左右4个邻近区域的像素平均值。

    2)曝光控制损失$ {L_{{\mathrm{exp}}}} $。用于衡量局部区域曝光水平和良好曝光水平E之间的差异,以控制进行曝光补偿的调整。$ {L_{{\mathrm{exp}}}} $由式(5)计算:

    $$ {L_{{\mathrm{exp}}}} = \frac{1}{M}\sum\limits_{k = 1}^M {|{Y_k} - E|} $$ (5)

    式中:M为大小为16×16像素点范围的非重叠局部区域的数量,增强图像中局部区域的平均强度值表示为Y。根据经验值将E设置为0.6。

    3)颜色恒常损失$ {L_{{\mathrm{col}}}} $。用于校正增强图像中潜在的颜色偏差,并建立3个调整通道之间的关系。$ {L_{{\mathrm{col}}}} $由式(6)计算:

    $$ {L_{{\mathrm{col}}}} = \sum\limits_{\forall (p,q) \in \varepsilon } {{{({J^p} - {J^q})}^2}} $$ (6)

    其中,$ {J}^{p} $为增强图像中p通道的平均强度值,$ \varepsilon = \{ (R,G),(R,B),(G,B)\} $代表RGB色彩通道中任意2个通道的组合。

    4)照度平滑损失$ {L_{tvA}} $。用于保持曲线参数图中的相邻像素之间的单调性与平滑变化关系。$ {L_{tvA}} $由式(7)计算:

    $$ {L_{tvA}} = \frac{1}{N}\sum\limits_{n = 1}^N {\sum\limits_{c \in \delta } {{{(|\nabla x{\boldsymbol{A}}_n^{\mathrm{c}}| + |\nabla y{\boldsymbol{A}}_n^{\mathrm{c}}|)}^2}} } $$ (7)

    式中:N为迭代次数;$ \nabla x $和$ \nabla y $为对应通道像素值的水平/垂直梯度值;$ \delta = \{ R,G,B\} $表示图像的3个色彩通道。

    5)总损失$ {L_{{\mathrm{total}}}} $。总损失可由式(8)计算:

    $$ {L_{{\mathrm{total}}}} = {L_{{\mathrm{spa}}}} + {L_{{\mathrm{exp}}}} + {W_{{\mathrm{col}}}}{L_{{\mathrm{col}}}} + {W_{{\mathrm{tvA}}}}{L_{{\mathrm{tvA}}}} $$ (8)

    式中:$ {W_{{\mathrm{col}}}} $和$ {W_{{\mathrm{tvA}}}} $作为权重参数,用于平衡不同损失间的权重尺度。依据多次对比实验效果,$ {W_{{\mathrm{col}}}} $设置为0.5,$ {W_{{\mathrm{tvA}}}} $设置为20时效果较理想。

    经过LMIENet预处理后的矿井低照度图像亮度得到了自适应补偿,场景轮廓和图像纹理质量也有明显提升,能有效提升下游视觉感知任务的性能。

    目标检测是计算机视觉感知任务中的热点问题,应用于矿井监控系统中,检测工作人员和设备运行状况可起到有效的安全监管和预警作用。在目标检测领域,YOLO系列算法因其兼顾准确的检测精度和高效的运行速度,通常作为工业界大量目标检测任务的首选。2016年REDMON J等[5]提出了单阶段的目标检测网络YOLO,至今已从v1版本优化到v8,并衍生出各种改进版本。YOLO v8在之前的检测网络的基础上,进行了新的改善,如改进了梯度分流思想的CSP主干网络、检测头选择了分类–检测分离的解耦头结构,同时使用了Anchor-Free的思想、损失函数计算和数据增强策略都做出了一定的调整,有效提升模型检测精度,是当前目标检测领域的新SOTA模型,图6是YOLO v8的网络结构简单示意。

    图  6  YOLO v8网络结构
    Figure  6.  Structure of YOLO v8 network

    YOLO v8整体架构分为BackBone,Neck,Head3部分。骨干网络沿用CSPDarkNet53的基本结构,一张图像输入后首先经第1层卷积,得到通道数为64的下采样输出,再经过多次卷积—批量归一化—SiLU激活和C2f模块后,由快速空间金字塔池化层(SPPF)融合3个尺度的空间金字塔池化特征图,输入到Neck。SPPF将输入特征图连续3次进行步长为1,kernel大小为5×5的最大值池化,逐层通道拼接得到融合不同尺度的空间池化特征图,再经由1×1卷积降维输出。为获取更丰富的梯度流信息,Backbone和Neck部分将YOLO v5的C3结构替换为C2f结构,由跨层拼接的卷积通道和若干个残差模块组成,Neck部分沿用FPN+PAN架构,在融合多层语义信息的同时,可以弥补加强多层卷积池化后被模糊的底层定位特征;Head部分仍由3个检测头组成,不同的是,YOLO v8将YOLO v7检测头部分的耦合头替换为解耦头,放弃Objectness分支,得到解耦的分类和回归分支,回归分支使用了DFL[24]思想的积分表示,输出大、中、小3个不同尺度的目标预测结果。

    为了进一步提升目标检测器的性能,针对目标检测边界框回归问题,提出了使用Focal-EIoU Loss改进回归损失函数的策略。YOLO v8引入Anchor-Free的思想,实验中分类损失使用VFL Loss,回归损失为CIoU Loss加DFL的形式。VFL Loss考虑了正负样本之间的不均衡性,其表达形式见式(9):

    $$ \begin{gathered} \qquad\qquad\qquad\quad VFL(p,q) = \\ \left\{ {\begin{array}{l} { - q(q\log (p) + (1 - q)\log (1 - p)),q > 0} \\ { - \alpha {p^\gamma }\log (1 - p),\quad\quad\quad\quad\quad\quad\;\; q = 0} \end{array}} \right. \\ \end{gathered} $$ (9)

    式中:$ p \in [0,1] $为样本的预测概率,对象为正样本时,$ q $为预测框与$ {\mathrm{gt}} $(Ground Truth,真值框)的${\mathrm{ IoU}} $,负样本时$ q $取0。在回归损失上,目标检测任务中常用$ IoU $来度量预测框与真实框的重合程度,可表示为式(10):

    $$ {\mathrm{IoU}} = \frac{{|{{A}} \cap B|}}{{|A \cup B|}} $$ (10)

    式中,$ A \cap B $、$ A \cup B $代表预测框与$ {\mathrm{gt}} $区域的交集和并集面积,图7中的阴影部分面积为2者的物理含义示意。基于以上度量方式,$ {\mathrm{IoU}} $损失函数$ {L_{{\mathrm{IoU}}}} $的表达式可以表示为式(11):

    图  7  交集与并集示意
    Figure  7.  Intersection/Union diagram
    $$ {L_{{\mathrm{IoU}}}} = 1 - {\mathrm{IoU}} $$ (11)

    但是$ {L_{{\mathrm{IoU}}}} $没有考虑预测框和真值框之间的距离因素,为了解决$ {L_{{\mathrm{IoU}}}} $在两个区域无交集时损失总为0,且收敛速度慢的缺点,YOLO v8采用了CIoU Loss作为回归损失的一部分。CIoU Loss可以表示为:

    $$ {L_{{\mathrm{CIoU}}}} = 1 - {\mathrm{IoU}} + \frac{{{\rho ^2}(b,{b^{{\mathrm{gt}}}})}}{{{c^2}}} + \alpha v $$ (12)

    式中,$ {\mathrm{IoU}} $为预测框与$ {\mathrm{gt}} $的交并比;$ b $,$ {b^{{\mathrm{gt}}}} $为预测框和$ {\mathrm{gt}} $的中心点坐标;$ {\rho }^{2}(·) $为两坐标间的欧几里得距离;$ c $为预测框与$ {\mathrm{gt}} $的最小外接矩形的对角线长度;此外$ \alpha $,$ v $分别表示为

    $$ v = \frac{4}{{{\pi ^2}}}\left(\arctan \frac{{{w^{{\mathrm{gt}}}}}}{{{h^{{\mathrm{gt}}}}}} - \arctan \frac{w}{h}\right) ,$$
    $$ \alpha = \frac{v}{{(1 - {\mathrm{IoU}}) + v}} \text{,} $$

    由上式计算$ \alpha v $用于衡量预测框和$ {\mathrm{gt}} $间的宽高比差异。CIoU Loss有效改善了$ {L_{{\mathrm{IoU}}}} $的不足,但仍有局限:只要预测框与$ gt $满足几何相似性(即$ w = k{w^{gt}}, h = k{h^{gt}},k \in {R^ + } $),损失函数中的$ \alpha v $惩罚项将失效;且由于:

    $$ \frac{{\partial v}}{{\partial w}} = - \frac{h}{w}\frac{{\partial v}}{{\partial h}} $$

    这意味着$ v $在使预测框的宽和高始终沿着相反方向变化,无法同时增大或减小,这有时仍限制模型收敛。因此,为了有效提升回归损失的收敛速度,促进预测的边界框回归,进一步提高模型检测精度,本文进一步将回归损失中的CIoU Loss改进为Focal-EIoU Loss[24],由EIoU Loss融合Focal Loss[7]思想组成。EIoU Loss在$ {\mathrm{IoU}} $损失的基础上额外考虑了距离损失$ {L_{{\mathrm{dis}}}} $和边长损失$ {L_{{\mathrm{asp}}}} $,增加了对预测框距离和边长大小的显式监督。结合了距离损失$ {L_{{\mathrm{dis}}}} $和边长损失$ {L_{{\mathrm{asp}}}} $后,可将EIoU Loss表示为式(13):

    $$ \begin{gathered} \qquad\qquad{L_{{\mathrm{EIoU}}}} = {L_{{\mathrm{IoU}}}} + {L_{{\mathrm{dis}}}} + {L_{{\mathrm{asp}}}}= \\ {\text{ }} 1 - {\mathrm{IoU}} + \frac{{{\rho ^2}(b,{b^{gt}})}}{{{{({w^c})}^2} + {{({h^c})}^2}}} {\text{ }} + \frac{{{\rho ^2}(w,{w^{gt}})}}{{{{({w^c})}^2}}} + \frac{{{\rho ^2}(h,{h^{gt}})}}{{{{({h^c})}^2}}} \\ \end{gathered} $$ (13)

    式中:$ w $,$ {w^{gt}} $分别为预测框和gt的宽;$ h $,$ {h^{gt}} $分别为预测框和$ gt $的高;$ {w^c} $,$ {h^c} $为预测框和$ gt $之间最小外接矩形的宽和高。与CIoU Loss不同的是,EIoU Loss不再考虑预测框和$ gt $之间的宽高比差异,而是通过使用$ {L_{{\mathrm{asp}}}} $替换$ \alpha v $惩罚项,将$ w $,$ h $解耦,直接分别计算宽和高的差异,推动网络同时往最小化宽和高差异的方向优化,这有效解决了CIoU Loss中的$ \alpha v $惩罚项失效问题,并改善预测框的$ w $,$ h $变化时相互约束的情况,加速了回归损失收敛,一定程度上提升了模型的检测精度。

    在模型的正常训练过程中,图像中的大部分检测目标具有较小的回归误差,但是低质量的高误差样本对训练过程产生的梯度波动影响很大。为了让模型在预测框回归时专注大部分高质量样本,降低低质量样本带来的回归误差波动,并赋予模型更强的鲁棒性,在式(13)中融合Focal Loss[7]的思想,最终得到Focal-EIoU Loss如式(14)所示:

    $$ {L_{{\mathrm{Focal - EIoU}}}} = {\mathrm{Io}}{{\mathrm{U}}^\gamma }{L_{{\mathrm{EIoU}}}} $$ (14)

    式中,$ \gamma $表示用于控制损失曲线弧度的超参数。因为IoU的取值在[0,1]之间,低质量样本的$ {\mathrm{IoU}} $往往更小,从式(14)可以分析出,越大的$ \gamma $对低质量样本的损失会产生越强大的抑制,使梯度平滑,但同时也会降低回归损失,一定程度上延缓收敛速度。实验中依据先验将$ \gamma $设置为0.5时,可实现精度与收敛速度的最佳平衡。

    对于改进DCE–Net模块,为了充分发挥改进零参考深度曲线估计的宽动态范围调整能力,同时避免过度增强光照充足的区域,将来自内蒙古鄂尔多斯马泰壕煤矿的矿井下低光图像和正常光照图像都纳入LMIENet的训练集中,共包含3000张矿井下作业环境图片(低光照与正常光照图像各1500张),受益于非参考损失函数的设计,以上数据均无需进行任何样本标注或低光/正常光照图像的数据配对。

    对于目标检测器模块,为充分验证模型在煤矿井下特殊工作环境中的表现,采用了包含6700张真实矿井下作业场景图像的自建矿井人员数据集(Underground Mine Personnel Detection Dateset Cumtb,UMPDDC),数据采集于内蒙古鄂尔多斯马泰壕矿井,覆盖矿井下运输巷设备列车、传送带转载区、斜井、副井工作活动区等多个场景,部分数据集示例如图8所示,并对该数据集进行了作业人员、安全头盔、传送带托辊(含左右侧)共3类检测对象的标注,共计41061个标注对象,详细统计数据可表1。因真实的井下极低光照图像采集困难且数量有限,参考LORE[25]等的方法对部分真实图像进行调整,人工合成低光数据集。对自建矿井人员数据集按4∶1的比例划分训练集与验证集。

    图  8  自建矿井人员数据集示例
    Figure  8.  Examples of UMPDDC dataset

    使用LMIENet进行图像增强,图像增强模块的训练过程是基于非参考损失函数推动的无监督训练,无需配对或标注的低光照/明亮图像数据集,模型可自适应学习图像光增强网络参数。初始训练epochs设置为200,batch size设置为8,采用Adam优化器,学习率设置为0.000 1,在一块NVIDIA RTX2 070 SUPER GPU上进行LMIENet网络的优化训练。经多次超参数调整实验,确定了式(5)中期望曝光强度E取值0.6,式(8)中损失权重参数$ {W_{{\mathrm{col}}}} $和$ {W_{{\mathrm{tvA}}}} $取值为0.5和20时图像增强效果较佳。目标检测网络采用轻量化的改进YOLO v8n,使用YOLO v8n在COCO128公开数据集上的预训练权重参数作为初始权重开始训练。输入的矿井下视频图片大小调整为640×640,在一块NVIDIA RTX2 070 SUPER GPU上进行训练,batch size设置为8,采用SGD随机梯度下降策略进行网络优化训练,共计300 epoch后完成训练。图9呈现了训练过程中的验证集Loss曲线收敛过程,在第170个epoch后各项损失基本趋于平稳。

    表  1  自建矿井人员数据集统计
    Table  1.  Statistics of UMPDDC dataset
    类别 标签数量 场景 图片数量
    作业人员 11523 运输巷设备列车 1289
    托辊(左/右) 7 489/10504 传送带区、转载区 2391
    安全头盔 11545 副井、工作活动区 3020
    总计 41061 总计 6700
    下载: 导出CSV 
    | 显示表格
    图  9  YOLO v8n训练损失收敛曲线(val)
    Figure  9.  YOLO v8n training loss convergence curve (val)

    为验证本文提出方法对矿井下作业人员的识别与定位效果,本节使用了YOLO v8n基线模型与本文提出的井下低照度环境目标检测模型分别进行目标检测实验,以低光照条件的井下图像作为各模型的输入,目标检测对象为矿井下弱光环境中的作业人员、安全头盔以及传送带托辊。低光照明条件的井下图像作为各模型的输入,图10呈现了部分样本的目标检测可视化结果。可以看出,受有限光照条件的限制,场景中人物与背景色调相近,轮廓模糊难以区分,YOLO v8n基线模型存在较多明显的漏检情况。本文算法采用LMIENet对低光照图像进行逐像素亮度补偿和细节增强后,检测准确率显著提升。重建图像的前景和背景边界可明显区分,且目标对象的轮廓和纹理特征更易于提取,这大幅提升了目标检测网络对弱光场景目标的检测准确率,误检和漏检情况得到了明显改善。

    图  10  目标检测对比实验部分可视化结果
    Figure  10.  Visualization results of object detection comparison experiment

    此外,本节试验还选取了经典的Two Stage目标检测算法Faster R–CNN[26]和One Stage目标检测算法SSD[6],RetinaNet[7]与改进前的YOLOv3-tiny, YOLO v5n目标检测网络,以及基于Anchor-Free思想的FCOS[27],CenterNet[28]与本文提出算法进行对比实验,表2数据呈现了多种对比算法与本文方法在验证自建矿井人员数据集下平均精确度AP(Average Precision)和单位时间检测帧数FPS,用于评价模型的检测精确度和检测速度。AP用于评价模型的平均精确度,其由P–R曲线(Precision-Recall,精确率–召回率曲线)与坐标轴围成面积来度量。精确率$ {\mathrm{Precision}} $和召回率${\mathrm{ Recall}} $可由式(15),式(16)计算:

    表  2  目标检测性能指标评价
    Table  2.  Evaluation of object detection performance indicators
    方法 Backbone mAP@0.5/% mAP@0.75/% mAP@0.5∶0.95/% FPS/(帧·s−1)
    Faster R–CNN[26] ResNet-50 95.3 58.5 56.0 16.4
    SSD300[6] VGG16 94.0 53.3 52.9 52.2
    RetinaNet[7] ResNet-50 95.8 59.6 56.9 17.7
    FCOS[27] ResNet-50 95.2 56.2 54.9 19.0
    CenterNet[28] ResNet-18 94.9 54.6 54.2 63.1
    YOLOv3–Tiny[29] DarkNet53 95.4 60.4 58.7 188.7
    YOLO v5n CSP–DarkNet53 96.8 67.0 61.1 117.7
    YOLO v8n New CSP–DarkNet53 97.1 67.7 61.9 126.6
    本文方法 98.0 72.9 64.8 90.9
    注:mAP@0.5为指在IoU阈值为50%时的平均精度;mAP@0.75为在IoU阈值为75%时计算的平均精度;mAP@0.5∶0.95为依据指定的步长(5%),在IoU阈值从50%~95%变化范围内所有取值的mAP的均值。下同。
    下载: 导出CSV 
    | 显示表格
    $$ {\mathrm{Precision }}= \frac{{{\mathrm{TP}}}}{{{\mathrm{TP}} + {\mathrm{FP}}}} $$ (15)
    $$ {\mathrm{Recall}} = \frac{{{\mathrm{TP}}}}{{{\mathrm{TP}} + {\mathrm{FN}}}} $$ (16)

    式中,TP为预测正确的正样本数量;FP为预测错误的正样本数量;FN为预测错误的负样本数量;选取不同的置信度阈值,可以得到不同的$ {\mathrm{Precision}} $和${\mathrm{ Recall}} $,在坐标轴中绘制P–R曲线,计算与坐标轴围成的面积,即可得到平均精确度AP。多个类别的mAP则由各类的AP计算平均值得到。由表2数据可以看出,本文提出算法检测精度评价指标mAP@0.5达98.0%,mAP@0.5∶0.95可达到64.8%,明显高于其他对比算法,且与YOLO v8n基线模型相比,获得2.9%的精度提升,在矿井低光照环境下的目标检测效果更加理想;且在保证高检测精确度的同时,模型推理的FPS高达91帧/s,可以满足绝大部分矿井下实时视频监视场景需求。

    为验证本文提出的LMIENet针对井下低光照图像的增强效果,以及对目标检测准确率的提升,选取了几种当前主流的微光图像增强算法如MBLLEN[30],LIME[31],RetinexNet[32],Zero-DCE[23]和SCI[33],与本文提出的LMIENet进行图像预处理以及下游目标检测任务实验性能对比。将试验结果进行主观定性评价以及客观定量分析,验证分析本文模型在矿井弱光环境下的目标检测效果。采用自建矿井人员数据集行对比试验,各图像增强模型的部分实验结果展示可如图11所示。

    图  11  图像增强与目标检测部分实验结果
    Figure  11.  Experimental results of image enhancement and object detection section

    图11中第1、3、5行可以看出,MBLLEN模型和LIME模型的增强后图像实现了较好的视觉增强效果,但图像纹理仍见模糊,且暗处及边缘细节稍欠突出;Zero-DCE算法增强后的图像整体仍然偏暗,亮度提升不足;RetinexNet则会导致大部分图像出现较明显的色彩失真,前景细节也较模糊。与其他模型相比,针对矿井下的低光照图像,本文提出的LMIENet亮度调整效果总体比较好,突出了暗处细节,体现了较自然的曝光效果和较清晰的纹理细节,且更加细化了前景和背景差异,除轻微偏色以外,整体亮度和对比度调整达到了较好的视觉效果。

    为了探究LMIENet导致的轻微偏色对目标检测任务的影响,并验证其对目标检测性能提升的有效性,本节以引入Focal-EIoU Loss改进回归损失后的YOLO v8n作为目标检测模型,将不同图像增强算法的输出作为目标检测器的输入进行目标检测,部分实验的可视化结果如图11所示第2、4、6行。通过实验结果可分析出,改进YOLO v8n模型针对极低光图像的目标检测结果并不理想,昏暗背景下的人物难以识别,漏检情况普遍存在。对MBLLEN和Zero-DCE增强后的图像针对较暗区域的人物识别效果欠佳,且对于安全头盔一类的小目标漏检明显;LIME和SCI增强图像亮度仍然偏暗,也存在对暗处目标的漏检情况。相较于提到的对比图像增强方法,本文针对煤矿井下图像的LMIENet可以实现较理想的增强效果,能够识别到其他增强图像中易被忽略的目标,漏检情况有明显改善,并且在识别率以及置信度等指标上,有显著提升。表3展示了使用改进YOLO v8n模型进行增强版本图像目标检测任务的mAP和RT性能指标,RT(Run Time,运行时间)代表每张图像经过图像增强和目标检测输出所需要的时间。可以看出本文提出的LMIENet增强后的图像取得了最佳的检测精度,mAP@0.5∶0.95高达64.8%,优于其他对比算法,且受益于光增强参数预测网络的轻量化的设计,LMIENet模块没有引入过重的计算负担,在实验环境中运行时间与改进YOLO v8n基线模型相差较小,单张图像消耗的推理时间仅为11.0 ms,仍能保持较高的检测速度,能够满足视频目标检测的实时性要求。

    表  3  LMIENet与主流图像增强算法在目标检测任务中的性能对比
    Table  3.  Performance comparison between LMIENet and mainstream image enhancement algorithms in object detection tasks
    检测网络 增强网络 mAP@0.5/% mAP@0.75/% mAP@0.5∶0.95/% RT/s
    改进YOLO v8n
    (Focal-EIoU Loss)
    LIME 97.3 70.0 62.9 0.499 6
    MBLLEN 96.2 58.2 56.7 14.002 8
    RetinexNet 94.4 55.3 55.1 0.128 5
    Zero-DCE 97.3 69.1 62.2 0.011 3
    SCI 97.9 72.0 64.4 0.010 5
    LMIENet 98.0 72.9 64.8 0.011 0
    下载: 导出CSV 
    | 显示表格

    首先为了验证提出的井下低光图像增强网络LMIENet在其他目标检测器上的性能迁移性,选择了3种不同的目标检测基线模型,将LMIENet分别引入到二阶段目标检测算法Faster-RCNN、单阶段检测算法RetinaNet以及经典的Anchor-Free目标检测算法FCOS,对增强光照图像进行目标检测实验,对比图像增强前后检测精度是否有提升,实验结果见表4。由表中数据可以分析得出,其中Faster-RCNN,RetinaNet算法检测精度均略有提升,在FCOS上的mAP@0.75可达57.8%,精度提升了1.6%。实验验证了LMIENet增强模块可以有效增强矿井低照度图像质量,在多种目标检测算法上都能取得一定精度提升。

    表  4  LMIENet在其他目标检测网络上的验证
    Table  4.  Verification of LMIENet on other target detection networks
    方法 mAP@0.5/% mAP@0.75/% mAP@0.5∶0.95/%
    Faster-RCNN 95.3 58.5 56.0
    Faster-RCNN+LMIENet 95.5 59.1 56.6
    RetinaNet 95.8 59.6 56.9
    RetinaNet+LMIENet 96.1 60.4 57.2
    FCOS 95.2 56.2 54.9
    FCOS+LMIENet 95.7 57.8 55.9
    下载: 导出CSV 
    | 显示表格

    此外,本文提出方法在YOLO v8n目标检测算法的损失函数中改进了回归损失,将CIoU Loss替换为Focal-EIoU Loss,前后分别训练得到回归损失收敛曲线,在同一基准下的曲线对比如图12所示。可以看出,在前60个epoch内,Focal-EIoU Loss+DFL形式的回归损失函数下降速度明显高于CIoU Loss+DFL,迅速将回归损失收敛至更低水平,可见使用的Focal-EIoU Loss对模型训练过程中的优化速度能取得一定提升。

    图  12  回归损失收敛趋势
    Figure  12.  Regression loss convergence trend chart

    为了更进一步验证本文提出算法各改进模块的有效性,在基线模型上进行了消融实验,逐步添加LMIENet与引入Focal-EIoU Loss进行消融实验,实验结果见表5。消融实验结果表明,YOLO v8n基线模型的检测精度(mAP@0.5∶0.95)为61.9%,仅使用LMIENet进行图像预处理精度可达到64.4%(提升2.5%);仅使用Focal-EIoU Loss改进回归损失精度可达到62.6%(提升0.7%),2者同时使用,检测精度可达64.8%(提升2.9%)。虽然仅使用Focal-EIoU Loss精度仅0.7%的提升,但是其在模型训练过程中也有帮助,例如可以使反向传播时梯度流更加稳定,回归损失收敛速度加快等,因此也具备一定工程价值。以上消融实验结果表明,本文提出的改进模型可以有效改善矿井下低光环境的目标检测性能。

    表  5  消融实验结果
    Table  5.  Results of ablation experiment
    YOLO v8n LMIENet Focal-EIoU mAP@0.5/% mAP@0.75/% mAP@0.5:0.95/%
    97.1 67.7 61.9
    98.0 72.7 64.4
    97.0 69.0 62.6
    98.0 72.9 64.8
    注:“√”代表使用了该方法。
    下载: 导出CSV 
    | 显示表格

    综合以上实验结果分析可以得出,相比于近年来主流的目标检测算法,本文模型针对矿井下极低光照条件的复杂工作场景视频图像能有效地调整图片亮度,丰富视频图像的色彩信息,突出利于检测的潜在信息,并突出清晰的图像纹理和细节,也可以取得较理想的识别与目标检测效果,与基线YOLO v8n模型相比,单张图像平均推理时间仅增加3.1 ms,检测FPS达91帧/s的前提下,仍取得2.9%的平均精确度的提升,充分体现了提出的改进算法在矿井低光照环境中实现目标检测任务的优秀性能。

    1)提出一种基于Zero-DCE改进的井下低光图像增强网络LMIENet,采用更高阶的光增强曲线实现输入图像到输出图像的像素映射,并在光增强参数学习网络中融入并行的混合空洞卷积,实现更多尺度的全局特征融合。LMIENet实现了图像的自适应增强,在保留原图像空间像素关系的基础上,有效地提高了原始低光照图像的质量。

    2)提出了基于LMIENet图像增强的矿井下低光环境目标检测方法,使用Focal-EIoU Loss改进目标检测网络的回归损失,显著提升了网络训练的收敛速度及检测精度;在自建矿井人员数据集上进行了大量对比实验,与经典目标检测算法Faster R–CNN,SSD,RetinaNet,FCOS,CenterNet等相比,提出的方法在低光照环境下检测的平均精确度达到98.0%,在实验环境中单帧图像推理时间仅11.0 ms,优于其他对比方法,表明本文算法在具有高检测精度的同时,具备轻量化的模型尺寸,高灵活性以及高检测速度。本文还进行了大量消融实验证明了各改进模块对模型性能提升的有效性。

    3) 提出的基于LMIENet图像增强的煤矿井下低光照环境目标检测模型,能够有效实现井下低照度复杂环境的亮度提升和画质增强,并完成高精度、高效率的井下目标检测,在高检测帧率的性能下,可以支持井下监控视频流作为输入的实时目标检测任务。后续将进一步探索该模型在煤矿安全监控系统的部署和工程实践,如小型矿用巡检机器人和实时视频监测及预警系统等,可用于井下人员作业限员检测、安全头盔佩戴检测,以及煤矿传送带运输区、转载区设备运行状况监测等,对推进煤矿井下自动化作业、智能化安全监控,有效促进煤矿信息化、智能化发展有重要意义。

  • 图  1   井下低照度环境目标检测模型整体结构

    Figure  1.   Overall structure of underground low illumination environment object detection model

    图  2   低光照井下图像与灰度直方图

    Figure  2.   Low light image and grayscale histogram

    图  3   映射曲线

    Figure  3.   Mapping curve

    图  4   井下低光图像增强网络结构

    Figure  4.   Structure of low-light mine image enhancement network

    图  5   增强参数预测网络结构

    Figure  5.   Structure of enhancement parameter predict network

    图  6   YOLO v8网络结构

    Figure  6.   Structure of YOLO v8 network

    图  7   交集与并集示意

    Figure  7.   Intersection/Union diagram

    图  8   自建矿井人员数据集示例

    Figure  8.   Examples of UMPDDC dataset

    图  9   YOLO v8n训练损失收敛曲线(val)

    Figure  9.   YOLO v8n training loss convergence curve (val)

    图  10   目标检测对比实验部分可视化结果

    Figure  10.   Visualization results of object detection comparison experiment

    图  11   图像增强与目标检测部分实验结果

    Figure  11.   Experimental results of image enhancement and object detection section

    图  12   回归损失收敛趋势

    Figure  12.   Regression loss convergence trend chart

    表  1   自建矿井人员数据集统计

    Table  1   Statistics of UMPDDC dataset

    类别 标签数量 场景 图片数量
    作业人员 11523 运输巷设备列车 1289
    托辊(左/右) 7 489/10504 传送带区、转载区 2391
    安全头盔 11545 副井、工作活动区 3020
    总计 41061 总计 6700
    下载: 导出CSV

    表  2   目标检测性能指标评价

    Table  2   Evaluation of object detection performance indicators

    方法 Backbone mAP@0.5/% mAP@0.75/% mAP@0.5∶0.95/% FPS/(帧·s−1)
    Faster R–CNN[26] ResNet-50 95.3 58.5 56.0 16.4
    SSD300[6] VGG16 94.0 53.3 52.9 52.2
    RetinaNet[7] ResNet-50 95.8 59.6 56.9 17.7
    FCOS[27] ResNet-50 95.2 56.2 54.9 19.0
    CenterNet[28] ResNet-18 94.9 54.6 54.2 63.1
    YOLOv3–Tiny[29] DarkNet53 95.4 60.4 58.7 188.7
    YOLO v5n CSP–DarkNet53 96.8 67.0 61.1 117.7
    YOLO v8n New CSP–DarkNet53 97.1 67.7 61.9 126.6
    本文方法 98.0 72.9 64.8 90.9
    注:mAP@0.5为指在IoU阈值为50%时的平均精度;mAP@0.75为在IoU阈值为75%时计算的平均精度;mAP@0.5∶0.95为依据指定的步长(5%),在IoU阈值从50%~95%变化范围内所有取值的mAP的均值。下同。
    下载: 导出CSV

    表  3   LMIENet与主流图像增强算法在目标检测任务中的性能对比

    Table  3   Performance comparison between LMIENet and mainstream image enhancement algorithms in object detection tasks

    检测网络 增强网络 mAP@0.5/% mAP@0.75/% mAP@0.5∶0.95/% RT/s
    改进YOLO v8n
    (Focal-EIoU Loss)
    LIME 97.3 70.0 62.9 0.499 6
    MBLLEN 96.2 58.2 56.7 14.002 8
    RetinexNet 94.4 55.3 55.1 0.128 5
    Zero-DCE 97.3 69.1 62.2 0.011 3
    SCI 97.9 72.0 64.4 0.010 5
    LMIENet 98.0 72.9 64.8 0.011 0
    下载: 导出CSV

    表  4   LMIENet在其他目标检测网络上的验证

    Table  4   Verification of LMIENet on other target detection networks

    方法 mAP@0.5/% mAP@0.75/% mAP@0.5∶0.95/%
    Faster-RCNN 95.3 58.5 56.0
    Faster-RCNN+LMIENet 95.5 59.1 56.6
    RetinaNet 95.8 59.6 56.9
    RetinaNet+LMIENet 96.1 60.4 57.2
    FCOS 95.2 56.2 54.9
    FCOS+LMIENet 95.7 57.8 55.9
    下载: 导出CSV

    表  5   消融实验结果

    Table  5   Results of ablation experiment

    YOLO v8n LMIENet Focal-EIoU mAP@0.5/% mAP@0.75/% mAP@0.5:0.95/%
    97.1 67.7 61.9
    98.0 72.7 64.4
    97.0 69.0 62.6
    98.0 72.9 64.8
    注:“√”代表使用了该方法。
    下载: 导出CSV
  • [1] 智 宁,毛善君,李 梅. 基于照度调整的矿井非均匀照度视频图像增强算法[J]. 煤炭学报,2017,42(8):2190−2197.

    ZHI Ning,MAO Shanjun,LI Mei. Video image enhancement al-gorithm of mine non-uniform illumination based on illumination adjustment[J]. Journal of China Coal Society,2017,42(8):2190−2197.

    [2] 陈德强,钱建生,郭星歌,等. 煤矿安全生产视频AI识别关键技术研究综述[J]. 煤炭科学技术,2023,51(2):349−365.

    CHENG Deqiang,QIAN Jiansheng,GUO Xingge,et al. Review on key technologies of AI recognition for videos in coal mine[J]. Coal Science and Technology,2023,51(2):349−365.

    [3]

    KRIZHEVSKY A,SUTSKEVER I,GEOFFREY E H. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems,2012,25:1097−1105.

    [4]

    GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:580–587.

    [5]

    REDMON J,DIVVALA S,GIRSHICK R,et al. You only look once:Unified,real-time object detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:779–788.

    [6]

    LIU W,ANGUELOV D,ERHAN D,et al. Ssd:Single shot multibox detector[C]. European Conference on Computer Vision,Springer,2016:21–37.

    [7]

    LIN T Y,GOYAL P,GIRSHICK R,et al. Focal loss for dense object detection[C]. Proceedings of the IEEE International Conference on Computer Vision,2017:2980–2988.

    [8]

    IGOR M,CHEN Y,LIN Y,et al. NOD:Taking a closer look at detection under extreme low-light conditions with night object detection dataset[C]. BMVC,2021.

    [9] 龚 云,颉昕宇. 基于同态滤波方法的煤矿井下图像增强技术研究[J]. 煤炭科学技术,2023,51(3):241−250.

    GONG Yun,XIE Xinyu. Research on coal mine underground image recognition technology based on homomorphic filtering method[J]. Coal Science and Technology,2023,51(3):241−250.

    [10] 苏 波,李 超,王 莉. 基于多权重融合策略的Retinex矿井图像增强算法[J]. 煤炭学报,2023,48,(S2):813−822.

    SU Bo,LI Chao,WANG Li. Mine image enhancement algorithm based on retinex using multi-weight fusion strategy[J]. Journal of China Coal Society,2023,48,(S2):813−822.

    [11] 李 曼,杨茂林,刘长岳,等. 基于图像的煤矸分选中图像照度调节方法[J]. 煤炭学报,2021,46(S2):1149−1158.

    LI Man,YANG Maolin,LIU Changyue,et al. Illuminance adjustment method for image-based coal and gangue separation[J]. Journal of China Coal Society,2021,46(S2):1149−1158.

    [12] 乔佳伟,贾运红. Retinex算法在煤矿井下图像增强的应用研究[J]. 煤炭技术,2022,41(3):193−195.

    QIAO Jiawei,JIA Yunhong. Research on Application of Retinex Algorithm in Image Enhancement in Coal Mine[J]. Coal Technology,2022,41(3):193−195.

    [13]

    WANG R,ZHANG Q,FU C,et al. Underexposed photo enhancement using deep illumination estimation[C]. IEEE Conference on Computer Vision and Pattern Recognition,2019:6849–6857.

    [14]

    KIM H,CHOI S,KIM C,KOH Y J. Representative Color Transform for Image Enhancement[C]. The IEEE/CVF International Conference on Computer Vision,2021.

    [15]

    ZHAO L,LU S,CHEN T,et al. Deep symmetric network for underexposed image enhancement with recurrent attentional learning[C]. The IEEE/CVF International Conference on Computer Vision,2021.

    [16] 田子建,吴佳奇,张文琪,等. 基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法[J]. 煤炭科学技术,2024,52(1):29−310.

    TIAN Zijian,WU Jiaqi,ZHANG Wenqi,et al. An illuminance improvement and details enhancement method on coal mine low-light images based on Transformer and adaptive feature fusion[J]. Coal Science and Technology,2024,52(1):297−310.

    [17]

    KIM I S,JEONG Y,KIM S H,et al. Deep Learning based Effective surveillance system for low-illumination environments[C]. International Conference on Ubiquitous and Future Networks,2019.

    [18]

    SASAGAWA Y,NAGAHARA H. YOLO in the Dark – Domain adaptation method for merging multiple models[A]// European Conference on Computer Vision,2020.

    [19]

    QU Y,OU Y,XIONG R. Low illumination enhancement for object detection in self-driving[A]// IEEE International Conference on Robotics and Biomimetics,2019.

    [20]

    WANG W,PENG Y,CAO G,et al. Low-illumination image enhancement for night-time UAV pedestrian detection[J]. IEEE Transactions on Industrial Informatics,2021,17(8):5208−5217. doi: 10.1109/TII.2020.3026036

    [21] 南柄飞,郭志杰,王 凯,等. 基于视觉显著性的煤矿井下关键目标对象实时感知研究[J]. 煤炭科学技术,2022,50(8):247–258.

    NAN Bingfei,GUO Zhijie,WANG Kai,et al. Study on real-time perception of target ROI in underground coal mines based on visual saliency[J]. Coal Science and Technology,2022,50(8):247–258.

    [22] 杨 艺,付泽峰,高有进,等. 基于深度神经网络的综采工作面视频目标检测[J]. 工矿自动化,2022,48(8):33−42.

    YANG Yi,FU Zefeng,GAO Youjin,et al. Video object detection of the fully mechanized working face based on deep neural network[J]. Journal of Mine Automation,2022,48(8):33−42.

    [23]

    LI C,GUO C,GUO J,et al. Learning to enhance low-light image via zero-reference deep curve estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,44(8):4225−4238.

    [24]

    ZHANG Y,REN W,ZHANG Z,et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocomputing,2022,506:146−157.

    [25]

    LORE K G,AKINTAYO A,SARKAR S. L lnet:A deep autoencoderapproach to natural low-light image enhancement[J]. Pattern Recognition,2017,61:650−662. doi: 10.1016/j.patcog.2016.06.008

    [26]

    REN S,HE K,GIRSHICK R,et al. Faster R–CNN:Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137−1149. doi: 10.1109/TPAMI.2016.2577031

    [27]

    TIAN Z,SHEN C,CHEN H,et al. FCOS:Fully convolutional one-stage object detection[A]// 2019 IEEE/CVF International Conference on Computer Vision(ICCV). IEEE,2020.

    [28]

    ZHOU X,WANG D,P Krhenbühl. Objects as points[EB/OL]. 2019,arXiv preprint arXiv:1904.07850.

    [29]

    REDMON J,FARHADI A. YOLOv3:an incremental improvement[EB/OL]. 2018,arXiv preprint arXiv:1804.02767.

    [30]

    LYU F,LU F,WU J,et al. MBLLEN:Low-light Image/Video Enhancement Using CNNs[C]. British Machine Vision Conference,2018.

    [31]

    GUO X,LI Y,LING H. Lime:Low-light image enhancement via illumination map estimation[J]. IEEE Transactions on Image Processing,2016,26(2):982−993.

    [32]

    WEI C,WANG W,YANG W,et al. Deep retinex decomposition for low-light enhancement[EB/OL]. 2018,arXiv preprint arXiv:1808.04560.

    [33]

    MA L,MA T,LIU R,et al. TOWARD Fast,Flexible,and Robust Low-Light Image Enhancement[A]// IEEE Conference on Computer Vision and Pattern Recognition,2022.

  • 期刊类型引用(4)

    1. 问永忠,贾澎涛,夏敏高,张龙刚,王伟峰. 基于改进YOLOv8n的井下人员多目标检测. 工矿自动化. 2025(01): 31-37+77 . 百度学术
    2. 董芳凯,赵美卿,黄伟龙. 煤矿井下暗光环境人员行为检测研究. 工矿自动化. 2025(01): 21-30+144 . 百度学术
    3. 王轶玮,李晓宇,翁智,白凤山. 基于改进Zero-DCE模型的矿井低照度图像增强方法. 工矿自动化. 2025(02): 57-64+99 . 百度学术
    4. 樊红卫,张超,刘金鹏,闫昕山,任跃武,王荣泉,李琳. 一种基于改进DeblurGAN-v2的煤矿带式输送机图像去运动模糊方法. 煤炭学报. 2024(S2): 1234-1247 . 百度学术

    其他类型引用(1)

图(12)  /  表(5)
计量
  • 文章访问数:  200
  • HTML全文浏览量:  63
  • PDF下载量:  90
  • 被引次数: 5
出版历程
  • 收稿日期:  2023-05-19
  • 录用日期:  2023-05-19
  • 网络出版日期:  2024-04-25
  • 刊出日期:  2024-05-24

目录

/

返回文章
返回