高级检索

矿井视觉计算体系架构与关键技术

程健, 李昊, 马昆, 刘斌, 孙大智, 马永壮, 殷罡, 王广福, 李和平

程 健,李 昊,马 昆,等. 矿井视觉计算体系架构与关键技术[J]. 煤炭科学技术,2023,51(9):202−218

. DOI: 10.12438/cst.2023-0152
引用本文:

程 健,李 昊,马 昆,等. 矿井视觉计算体系架构与关键技术[J]. 煤炭科学技术,2023,51(9):202−218

. DOI: 10.12438/cst.2023-0152

CHENG Jian,LI Hao,MA Kun,et al. Architecture and key technologies of coalmine underground vision computing[J]. Coal Science and Technology,2023,51(9):202−218

. DOI: 10.12438/cst.2023-0152
Citation:

CHENG Jian,LI Hao,MA Kun,et al. Architecture and key technologies of coalmine underground vision computing[J]. Coal Science and Technology,2023,51(9):202−218

. DOI: 10.12438/cst.2023-0152

矿井视觉计算体系架构与关键技术

基金项目: 

天地科技股份有限公司科技创新创业资金专项重点资助项目(2021-TD-ZD002,2022-2-TD-ZD001);煤炭科学研究总院创新创业科技专项资助项目(2021-JSYF-004)

详细信息
    作者简介:

    程健: (1974—),男,四川平昌人,研究员,博士生导师,博士。 Tel:010-84263652,E-mail:jiancheng@tsinghua.org.cn

    通讯作者:

    李和平: (1978—),男, 湖北荆门人,教授级高级工程师,硕士生导师,博士。 E-mail:lihp@ccteg-bigdata.com

  • 中图分类号: TD67

Architecture and key technologies of coalmine underground vision computing

Funds: 

Key Funding Project for Science and Technology Innovation and Entrepreneurship of Tian Di Technology Co., Ltd. (2021-TD-ZD002, 2022-2-TD-ZD001); Innovation and Entrepreneurship Technology Special Funding Project of Coal Science Research Institute (2021-JSYF-004)

  • 摘要:

    煤矿井下特别是采掘工作面空间狭窄、装备众多、工艺条件及环境复杂、隐蔽致灾隐患多,因此实现智能化无人操作一直是煤炭行业内的普遍需求。建立有效的面向煤矿井下应用的视觉计算理论是实现煤矿智能化无人开采的重要一环。矿井视觉计算的主要任务是针对矿井这一特定应用领域,研究煤矿井下环境的感知、描述、识别和理解模型与框架,以使智能装备具有通过图像或视频感知煤矿井下三维环境信息,增强煤矿井下环境感知能力。为了有效推进该理论与实践的结合发展,使其更好地服务于煤矿智能化建设,首先围绕煤矿井下视觉计算的基本概念,分析计算机视觉与矿井视觉计算的异同,总结提出煤矿井下视觉计算的组成架构体系。然后,详细介绍煤矿井下视觉计算所涉及的视觉感知与增强、特征提取与特征描述、语义学习与视觉理解、三维视觉与空间重建、感算一体与边缘智能等关键技术,并从矿井视频智能识别、预警与机器人定位、导航等方面简要介绍视觉计算在煤矿井下的典型应用案例。最后给出煤矿井下视觉计算的发展趋势和展望,重点总结分析了目前矿井视觉计算在煤矿井下应用中存在的关键技术难题和矿井增强现实/混合现实、平行智能采矿2种重要的发展方向。随着煤矿井下视觉计算理论的不断突破和完善,矿井视觉计算在煤矿智能化发展中必将发挥越来越重要的作用。

    Abstract:

    It has always been a common demand to stay away from the harsh environment with narrow space, numerous devices, complex operation process, and hidden hazards, and realize intelligent unmanned mining in the coal industry. To achieve this goal, it is very necessary for us to develop an effective theory of vision computing for underground coalmine applications. Its main task is to build effective models or frameworks for perceiving, describing, recognizing and understanding the environment of underground coalmine, and let intelligent equipment get 3D environment information in coalmine from images or videos. To effectively develop this theory and make it better for intelligent development of coalmine, this paper first analyzed the similarities and differences about computer vision and visual computing in coalmine, and proposed its composition architecture. And then, this paper introduced in detail the key technologies involved in visual computing in coalmine including visual perception and light field computing, feature extraction and feature description, semantic learning and vision understanding, 3D vision reconstruction, and sense computing integration and edge intelligence, which is followed by typical application cases of visual computing in coalmines. Finally, the development trend and prospect of underground visual computing in coalmine was given. In this section, this paper focused on concluding the key challenges and introducing two valuable applications including coalmine Augmented Reality/Mixed Reality and parallel intelligent mining. With the breakthrough of underground vision computing, it will play a more and more important role in the intelligent development of coal mines.

  • 为了扎实推进智慧矿山的建设,提升企业整体的信息化、数字化水平,对井下监控系统与巡检机器人的检测及跟踪能力进行全面升级是十分必要的。国家煤矿安监局最新出台的《煤矿井下单班作业人数限员规定》将矿井按生产能力分为7档,对于各档次矿井下单班作业人数及采掘工作面作业人数做出限制。于是对井下人员进行实时跟踪及统计是避免发生安全事故的有效手段。但井下工作环境存在着光照不均,煤尘干扰严重等问题,导致工作人员无法长时间有效对监控视频进行多场景监控[1],且定点监控覆盖面有限。因此,使用巡检机器人取代工作人员进行实时监控对于减轻职工工作强度,降低岗位安全风险,实现企业减人增效和建设智慧矿山有着积极的作用[2]

    当今目标检测算法分为2大类:传统机器学习与深度神经网络。传统机器学习算法分为三部分:滑动窗口、特征提取、分类器[3]。此类算法针对性低、时间复杂度高、存在窗口冗余[4];并且手工设计的特征鲁棒性差、泛化能力弱[5],这导致传统机器学习算法逐渐被深度学习算法所取代[6]。李若熙等[7]通过YOLOv4[8]算法进行井下人员检测,在寻找目标中心点时引入聚类分析算法,提升了模型的特征提取能力。杨世超[9]通过Faster-RCNN[10]算法进行井下人员检测,将井下监控采集的图像输入到检测模型中提取特征,利用区域建议网络和感兴趣区域池化得到目标的特征图,最后通过全连接层得到目标的精确位置。董昕宇等[11]通过SSD[12]算法构建了一种井下人员检测模型,采用深度可分离卷积模块和倒置残差模块构建轻量化模型,提升了模型的检测速度。陈伟等[13]提出一种基于注意力机制的无监督矿井人员跟踪算法,结合相关滤波和孪生网络在跟踪任务的优势,构建轻量化目标跟踪模型。以上文献都是利用深度学习算法实现井下人员检测与跟踪,但是当出现目标遮挡时,检测效果均不佳;同时缺少对井下人员编码统计的能力;而且模型参数量较大,检测速率也有待提高[14]

    针对上述问题,基于YOLOv5s[15]和DeepSORT[16]模型进行改进,使用改进轻量化网络ShuffleNetV2[17]替代YOLOv5s主干网络CSP-Darknet53[18],使得模型在保持精度的同时降低了计算量。同时在改进ShuffleNetV2中添加Transformer[19]自注意力模块来强化模型深浅特征的全局提取能力。接着使用BiFPN[20]结构替换原Neck结构,使多尺度特征能够有效融合。最后使用更深层卷积强化DeepSORT的外观信息提取能力,有效的提取图像的全局特征和深层信息,减少了目标编码切换的次数。实验结果表明,改进后的模型有效解决了人员遮挡时检测效果不佳及编码频繁切换的问题。

    YOLOv5是当前深度学习主流的One-Stage结构目标检测网络,共有4个版本:YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。考虑到井下巡检机器人的轻量化设计,本文采用深度最小,特征图宽度最小的网络Yolov5s。其分为输入端Input、主干网络Backbone、颈部网络Neck、输出端Head四部分。输入端通过Mosaic数据增强、自适应锚框计算、自适应图片缩放,使得模型适用于各种尺寸大小图像的输入的同时丰富了数据集,提升了网络的泛化能力。主干网络包含:焦点层(Focus),Focus结构在之前的YOLO系列[21-23,8]中没有引入,它直接对输入的图像进行切片操作,使得图片下采样操作时,在不发生信息丢失的情况下,让特征提取更充分[24];跨阶段局部网络层(Cross Stage Partial Network,CSP) ,CSP[25]结构是为了解决推理过程中计算量过大的问题;空间金字塔池化(Spatial Pyramid Pooling,SPP),SPP[26]结构能将任意大小的特征图转换成固定大小的特征向量。Neck中采用的是FPN+PAN结构,负责对特征进行多尺度融合。Head输出端负责最终的预测输出,使用GIOU损失函数作为位置回归损失函数,交叉熵损失函数作为类别损失函数,其作用是在不同尺度的特征图上预测不同大小的目标。

    提出的井下人员检测框架如图1所示。首先将井下巡检机器人所采集的图像逐帧输入到改进YOLOv5s中进行训练,从而获取到网络的训练权重,最后利用测试集图像对本文改进的目标检测算法进行验证。

    图  1  本文目标检测算法框架
    Figure  1.  Detection framework of the proposed algorithm

    由于YOLOv5s具有较大的参数量,对于硬件成本要求较高,难以部署在小型的嵌入式设备或者移动端设备。因此使用轻量化网络ShuffleNetV2代替原主干网络CSP-Darknet53,通过深度可分离卷积来代替传统卷积减小参数量的同时高效利用了特征通道与网络容量,使得网络仍保持较高的精度[27]表1展示了改进ShuffleNetV2结构,本文将原结构中最大池化卷积层采用深度可分离卷积进行替换,实现了通道和区域的分离,增强了网络的特征提取能力同时也降低了参数量;使用全局池化层替换原结构中的全连接层进行特征融合,保留了前面卷积层提取到的空间信息,提升了网络的泛化能力。

    表  1  改进ShuffleNetV2结构
    Table  1.  Improve the structural ShuffleNetV2
    层数输出大小核大小步长重复使用次数通道数
    Image224×2243
    Conv1112×1123×32124
    DW conv56×563×32124
    Stage228×2821116
    Stage228×2813116
    Stage314×1421232
    Stage314×1417232
    Stage47×721464
    Stage47×713464
    Conv57×71×1111024
    Global pooling1×17×7
    下载: 导出CSV 
    | 显示表格

    Transformer整个网络结构由自注意力模块和前馈神经网络组成。Transformer采用自注意力机制,将序列中的任意两个位置之间的距离缩小为一个定值,具有更好的并行性,符合现有的GPU框架[28]。本文在改进ShuffleNetV2中引入Transformer自注意力模块,与原始网络相比,添加Transformer模块可以提取到更加丰富的图像全局信息与潜在的特征信息,提升了模型的泛化能力。

    本文融入的Transformer块结构图如图2所示,其主要由以下3部分构成。

    图  2  Transformer 块结构
    Figure  2.  Transformer block structure

    高效自注意力层(Efficient Self-Attention)可以通过图像形状重塑,缩短远距离特征依赖间距,使网络更加全面地捕获图像特征信息[29]。自注意力公式如式(1)所示。

    $$ {\rm{Attention}}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) = {\rm{soft}}\, \max \left(\frac{{Q{K^{\rm{T}}}}}{{\sqrt {{d_{\rm{k}}}} }}\right)V $$ (1)

    式中, $({W_{\rm{q}}},{W_{\rm{k}}},{W_{\rm{v}}})$为权重矩阵,负责将X映射为语义更深的特征向量QKV,而${d_{\rm{k}}}$为特征向量长度。

    高效自注意力层通过位置编码来确定图像的上下文信息,输出图像的分辨率是固定的,当测试集图像与训练集图像的分辨率不同时,会采用插值处理来保证图像尺度一致,但是这样会影响模型的准确率[30]。针对此问题,本文在高效自注意力层后连接混合前馈网络(Mix Feedforward Network,Mix-FFN)来弥补插值处理对泄露位置信息的影响。混合前馈网络计算公式如式(2)、式(3)所示:

    $$ {x_{{\rm{out1}}}} = {\rm{Conv}}(MLP({\rm{Norm}}({x_{{\rm{in}}}}))) $$ (2)
    $$ {x_{{\rm{out}}}} = {\rm{MLP}}({\rm{GELU}}({x_{{\rm{out1}}}})) + {x_{{\rm{in}}}} $$ (3)

    式中,${x_{{\rm{in}}}}$为上层输出;Norm为归一化处理;MLP为多层感知机;GELU代表激活函数。

    重叠块压缩层(Overlapping Block Compression,OBC)用于压缩图像尺寸和改变图像通道数,保留尺度稳定的特征,简化模型复杂度和降低冗余信息。

    原始YOLOv5s的Neck部分采用的是FPN+PAN结构,FPN是自顶向下,将高层的强语义特征向底层传递,增强了整个金字塔的语义信息,但是对定位信息没有传递。PAN就是在FPN的后面添加一个自底向上的路径,对FPN进行补充,将底层的强定位信息传递上去。但是该结构的融合方式是将所有的结构图转换为相同大小后进行级联,没有将不同尺度之间的特征充分利用,使得最终的目标检测精度未达到最优。因此,本文采用一种更为高效的BiFPN特征融合结构进行替代。其结构如图3所示,相较于原始特征融合结构,BiFPN能更有效的结合位于低层的定位信息与高层的语义信息,同时在通道叠加时将权重信息考虑进去,实现双向多尺度特征融合,通过不断调参确定不同分辨率的特征重要性,如式(4)所示。

    图  3  BiFPN结构
    Figure  3.  BiFPN structure
    $$ {\rm{Out}} = \sum\limits_{{i}} {\frac{{{\omega _{{i}}}}}{{\varepsilon + \displaystyle\sum\limits_{{j}} {{\omega _{{j}}}} }}} {\ln _{{\;i}}} $$ (4)

    式中,i为第i个权重;j为权重总个数;ln为输入特征;Out为输出特征;${\omega _{\rm{i}}}$为权重。

    将主干网络中Transformer模块提取出大小不同的特征图通过BiFPN进行融合,可以更加有效地融合全局深浅层的信息与关键的局部信息,将第一次下采样得到的特征图与后面的特征图进行跨层连接,使得定位信息能够获取充分,提升了模型小目标的检测性能;在特征融合时删除对模型贡献较低的节点,在同尺度特征节点间增加跳跃连接,减少了计算量;最终在提高模型精度及泛化能力的同时降低了漏检率且几乎不增加运行成本。

    使用本文提出的检测模型与改进DeepSORT跟踪算法搭配实现对井下人员的跟踪,首先将监测图像输入到改进Yolov5s目标检测网络,得到检测结果,然后通过改进DeepSORT算法逐帧对人员进行匹配,得到他们的轨迹信息,最后输出跟踪图像。

    DeepSORT是针对多目标的跟踪算法,其核心是利用卡尔曼滤波和匈牙利匹配算法,将跟踪结果和检测结果之间的IOU (Intersection over Union, 交并比)作为代价矩阵,实现对移动目标的跟踪。

    为了跟踪检测模型找出的作业人员,DeepSORT使用8维变量x来描述作业人员的外观信息和在图像中的运动信息,如式(5)所示。

    $$ x = (u,v,\gamma ,q,\dot u,\dot v,\dot \gamma ,\dot q) $$ (5)

    式中:$ (u,v) $为井下人员的中心坐标;$ \gamma $为人员检测框的宽高比;$ q $为人员检测框的高; $ (\dot u,\dot v,\dot \gamma ,\dot q) $$ (u,v,\gamma ,q) $相应的速度信息。

    DeepSORT结合井下人员的运动信息与外观信息,使用匈牙利算法对预测框和跟踪框进行匹配,对于人员的运动信息,采用马氏距离描述卡尔曼滤波的预测结果和改进YOLOv5s检测结果之间的关联程度,如式(6)所示。

    $$ {d^{(1)}}({{i}},{{j}}) = {({d_{{j}}} - {{\boldsymbol{y}}_{{i}}})^{\rm{T}}}{\boldsymbol{S}}_{{i}}^{ - 1}({d_{{j}}} - {{\boldsymbol{y}}_{{i}}}) $$ (6)

    式中:$ {d_{{j}}} $为第j个检测框;$ {{\boldsymbol{y}}_{{j}}} $为第i个检测框的状态向量;${{\boldsymbol{S}}_{{i}}}$i条轨迹之间的标准差矩阵。

    当井下行人被障碍物长时间遮挡时,外观模型就会发挥作用,此时特征提取网络会对每个检测框计算出一个128维特征向量,限制条件为$\left\| {{r_{{j}}}} \right\| = 1$,同时对检测到的每个人员构建一个确定轨迹的100帧外观特征向量。通过式(7)计算出这两者间的最小余弦距离。

    $$ {d^{(2)}} = ({{i}},{{j}}) = \min \left\{ {1 - {{\boldsymbol{r}}_{{j}}^{\rm{T}}}{\boldsymbol{r}}_{{k}}^{({{i}})}\left| {{\boldsymbol{r}}_{{k}}^{({{i}})} \in {R_{{k}}}} \right.} \right\} $$ (7)

    式中:${{\boldsymbol{r}}_{{j}}}$为检测框对应的特征向量;$ {{\boldsymbol{r}}_{{k}}} $为100帧已成功关联的特征向量。

    马氏距离在短时预测时提供可靠的目标位置信息,使用外观特征的最小余弦距离可使得遮挡目标重新出现后恢复目标 ID,为了使两种度量的优势互补,最终将两种距离进行线性加权作为最终度量,公式如式(8)所示。

    $$ {c_{{{i}},{{j}}}} = \lambda {d^{(1)}}({{i}},{{j}}) + (1 - \lambda ){d^{(2)}}({{i}},{{j}}) $$ (8)

    式中:$ \lambda $为权重系数,若${c_{{{i}},{{j}}}}$落在指定阈值范围内,则认定实现正确关联。

    原始DeepSORT的外观特征提取采用一个小型的堆叠残差块完成,包含两个卷积层和六个残差网络。该模型在大规模路面行人检测数据集上训练后,可以取得很好的效果,但是井下环境光照不均匀,烟尘干扰严重,导致对井下人员跟踪的效果不理想,于是本文采用高效特征提取架构OSA(one shot aggregation)来替代原DeepSORT外观模型中的堆叠残差块以强化DeepSORT的外观特征提取能力,有效的提取图像中的全局特征和深层信息,达到减少人员编码切换次数的作用,OSA结构如图4所示。

    图  4  OSA结构
    Figure  4.  OSA structure

    在外观状态更新时,采用指数平均移动的方式替代特征集合对第t帧的第i个运动轨迹的外观状态进行更新。如式(9)所示。

    $$ {{e}}_{{i}}^t = \alpha {{e}}_{{i}}^{t - 1} + (1 - \alpha )f_{\rm{i}}^t $$ (9)

    式中:$ f_{{i}}^t $为第t帧的第i个运动轨迹的外观嵌入;$ \alpha $为动量项。使用这种方式不仅减少了时间的消耗,同时提高了匹配的质量。

    本文采用Caltech行人数据集(Caltech Pedestrian Detection Benchmark)、INRIA行人数据集(INRIA Person Dataset)及自建井下人员检测及跟踪数据集对所提检测及跟踪算法井下进行验证。

    1) Caltech行人数据集:此数据集为目前规模较大的行人数据集,使用车载摄像头录制不同天气状况下10 h街景, 拥有人员遮挡、目标尺度变化大、背景复杂等多种情形,标注超过25万帧,35万个矩形框,2300个行人。同时注明了不同矩形框之间的时间关系及人员遮挡情况。

    2) INRIA行人数据集:此数据集为目前常见的静态人员检测数据集,数据集中人员身处不同光线条件及地点。训练集拥有正样本1000张,负样本1500张,包含3000个行人;测试集包含正样本350张,负样本500张,包含1200个行人,该数据集人员以站姿为主且高度均超100个像素,图片主要来源于谷歌,故清晰度较高。

    3)自建井下人员检测及跟踪数据集:采集井下巡检机器人与监控视频拍摄的10万帧图像,筛选其中8000帧相似程度较低的图像构建数据集。首先使用ffmpeg工具将图像按帧切为图片,其中涵盖井下各种环境:光照不均2267张、煤尘严重1568张、目标遮挡3891张、其余环境1200张。其次采用Python编写的Labelimg对图片中人员进行标注,自动将人员位置及尺寸生成xml文件,最终转为适用于yolo系列的txt文件,包含每张图片中人员的中心位置(x, y)、高(h)、宽(w)三项信息。如图5所示,该数据集包含上万个人工标记的检测框。由于本文算法应用于井下人员的检测及追踪,故数据集中仅含“person”一个类。将图片数量按照7∶2∶1分为训练集、验证集和测试集。

    图  5  自建井下人员检测及跟踪数据集
    Figure  5.  Self-built downhole personnel detection and tracking data sets

    试验使用平台参数如下:

    配置参数
    操作系统Windows 10
    内存容量32 GB
    GPUNVIDIA GeForce RTX 3070Ti
    CPUIntel 酷睿i7 12700H
    模型框架PyTorch1.7.1
    编程语言Python3.6

    检测算法评价指标:使用模型参数量、检测时间、召回率$ {M_{\rm{r}}} $、准确率$ {M_{\rm{p}}} $、漏检率$ {M_{\rm{m}}} $,误检率$ {M_{\rm{f}}} $及mAP@0.5作为检测算法的评价指标。

    $$ {M_{\rm{r}}} = \frac{{{T_{\rm{p}}}}}{{{T_{\rm{p}}} + {F_{\rm{N}}}}} $$ (10)
    $$ {M_{\rm{p}}} = \frac{{{T_{\rm{p}}}}}{{{T_{\rm{p}}} + {F_{\rm{p}}}}} $$ (11)
    $$ {M_{\rm{m}}} = \frac{{{F_{\rm{N}}}}}{{{F_{\rm{N}}} + {T_{\rm{p}}}}} $$ (12)
    $$ {M_{\rm{f}}} = \frac{{{F_{\rm{p}}}}}{{{F_{\rm{p}}} + {T_{\rm{N}}}}} $$ (13)
    $$ {\rm{mAP}} = \frac{{{T_{\rm{p}}} + {T_{\rm{n}}}}}{{{T_{\rm{p}}} + {T_{\rm{n}}} + {F_{\rm{p}}}}} $$ (14)

    式中:$ {T_{\rm{p}}} $为被正确检测出的井下人员;$ {F_{\rm{N}}} $为未被检测到的井下人员;$ {F_{\rm{P}}} $为被误检的井下人员;$ {T_{\rm{N}}} $为未被误检的井下人员;mAP为不同召回率上正确率的平均值。

    跟踪算法评价指标:

    1)编码变换次数(ID switch, IDS),跟踪过程中人员编号变换及丢失的次数,数值越小说明跟踪效果越好。

    2)多目标跟踪准确率(Multiple Object Tracking Accuracy),用于确定目标数及跟踪过程中误差累计情况,如式(15)所示。

    $$ {{A}_{\rm{MOT}}}{\text{ = 1 }}- \frac{{\displaystyle\sum\limits_1^n t {{M_{\rm{m}}} + {M_{\rm{f}}} + {\rm{IDS}}} }}{{\displaystyle\sum\limits_1^n t {G{T_{{t}}}} }} $$ (15)

    式中:$ {M_{\rm{m}}} $为漏检率;$ {M_{\rm{f}}} $为误检率;${\rm{IDS}}$为编码转换次数; $ G{T_{\rm{t}}} $为目标数量;n为图片数量;t为第t张图片。

    3)多目标跟踪精度(Multiple Object Tracking Precision,PMOT),用于衡量目标位置的精确程度,如式(16)所示。

    $$ P_{\rm{MOT}} = \frac{{\displaystyle\sum\limits_1^n {t,i} {{d_{{{t,i}}}}} }}{{\displaystyle\sum\limits_1^n t {{c_{{t}}}} }} $$ (16)

    式中:${d_{{{t,i}}}}$为目标i与标注框间的平均度量距离;$ {c_{{t}}} $t帧匹配成功的数目。

    4)每秒检测帧数 (Frames Per Second, FPS)及模型参数量,体现模型运行的速率及成本。

    将本文算法通过自建井下人员检测及跟踪数据集进行训练,输入图像大小为 608×608, 迭代次数为300,批次大小为 16,初始学习率设置为 0.01,后 150轮的训练学习率降为 0.001。动量设置为0.937,衰减系数为0.005。训练损失变化如图6所示。可以看出模型三类损失函数收敛较快且都收敛于较低值,表明改进算法具有良好的收敛能力与鲁棒性。

    图  6  损失函数曲线
    Figure  6.  Loss function curve

    为了验证本文改进检测算法的有效性以及轻量化主干网络选择的合理性,将本文算法与YOLOv5s模型和YOLOv5s-ShuffleNetV2通过自建井下人员检测及跟踪数据集进行对比。

    图7中可以看出,原始YOLOv5s算法迭代到40次时,准确率上升到0.86左右,最终收敛在0.87左右;YOLOv5s-ShuffleNetV2在迭代到40次时,准确率上升到0.84左右,最终收敛在0.85左右;而本文所提算法在迭代40次时,准确率上升到0.91左右,最终收敛在0.92左右,较原始YOLOv5s模型提升了5.1%。

    图  7  准确率曲线
    Figure  7.  Accuracy rate curve

    图8中可以看出,原始YOLOv5s算法在迭代到40次时,mAP上升到0.85左右,最终收敛在0.86左右;YOLOv5s-ShuffleNetV2在迭代到40次时,mAP上升到0.85左右,最终收敛在0.85左右;而本文算法的迭代到40次时,mAP上升到0.89左右,mAP最终收敛在0.90左右,较原始YOLOv5s模型提升了5.2%。综上所述,本文选取的轻量化网络ShuffleNetV2可以使得检测模型保持一定精度的同时降低计算量;轻量化主干的改进、注意力机制的引入以及多尺度的融合对于目标检测性能有着明显的提升,因此,本文检测算法对于井下复杂环境中的人员检测具有良好的精度。

    图  8  mAP曲线
    Figure  8.  mAP curve

    在YOLOv5s算法的基础上进行了改进轻量化主干网络的替换ShuffleNetv2、Transformer自注意力机制模块的融入、Neck部分进行BiFPN的替换。为了检验本文对检测阶段各改进点的有效性,以YOLOv5s模型为基准,使用消融实验在相同环境下进行进行验证,各模型参数设置保持一致,具体消融试验结果见表2

    表  2  消融试验结果
    Table  2.  Ablation results
    模型ShuffleNetv2TransformerBiFPN准确率漏检率召回率误检率时间/ms参数量/MB
    10.8710.3140.7830.02718.913.09
    20.8590.3220.7940.03012.43.45
    30.8830.2350.8310.02113.34.17
    40.8770.2490.8310.01913.74.34
    50.9230.1900.8610.01314.95.33
    注:“√”表示对应部分已改进。
    下载: 导出CSV 
    | 显示表格

    表2可以看出,原始YOLOv5s的主干网络替换后,准确率下降了1.4%,速率提升了34%。在模型2中添加Transformer自注意力模块后,准确率提升了2.8%。在模型2中使用BiFPN替代原来的特征融合结构后,准确率提升了2.1%。在模型2中同时添加Transformer自注意力机制模块和BiFPN模块,准确率提升了7.4%,平均漏检率下降了40%,召回率提升了8.4%,平均误检率下降了51%。综上所述,单独添加Transformer自注意力模块和BiFPN模块,井下人员检测性能提升有限,而两种模块组合添加时,井下人员检测性能获得了很大的提升。相比于原始算法,准确率提升了5.2%;参数量下降了41%;检测速率提升了21%,达到0.0148 s/帧;为部署于巡检机器人奠定了基础。

    为了验证文中检测算法具有良好的泛化能力,在2个公开行人数据集Caltech行人数据集、INRIA行人数据集上进行进一步验证,性能指标对比见表3。通过比较3个不同数据集中的性能指标,可以看出文中算法不仅适用于井下人员检测,在目标尺度变化大、背景复杂、光照剧烈等多数场景中人员检测效果也均优于原始YOLOv5s,因此,具有良好的泛化性与鲁棒性。

    表  3  多数据集性能指标对比
    Table  3.  Comparison of performance indicators of multiple data sets
    数据集性能指标YOLOv5s本文算法
    精确率0.7810.849
    Caltech行人数据集召回率0.6910.733
    mAP0.7420.792
    精确率0.8610.881
    INRIA行人数据集召回率0.7880.791
    mAP0.8560.890
    精确率0.8710.923
    自建数据集召回率0.7830.861
    mAP0.8640.902
    下载: 导出CSV 
    | 显示表格

    为了更加直观地体现文中检测算法的效果,选择Faster-RCNN、YOLOv3、YOLOv4、YOLOv5s 4种主流算法在自建数据集中选取光照不均、煤尘干扰、多目标移动、人员遮挡4种场景进行验证,检测结果如图9所示。

    图  9  主流目标检测结果对比
    Figure  9.  Comparison of detection results of mainstream targets

    从第一组试验中,可以观察到光照不均严重,Faster-RCNN、YOLOv3、YOLOv4、YOLOv5s均出现误检的情况,而本文算法使用了BiFPN 结构使得多尺度特征能够有效融合,对于远处小目标检测能够起到了很好的识别作用。从第二组试验中,可以观察到粉尘干扰严重,除文中算法外,其余算法出现漏检、误检的情况,而文中算法由于融合了Transformer自注意力模块强化了模型深浅特征的全局提取能力,提升了目标在复杂环境中的对比度,有效抑制了粉尘的干扰。从第三、四组试验得出,本文算法对于井下环境中多目标移动对象及遮挡人员的检测也具有良好的效果。综上所述,文中检测算法在井下各种复杂环境中检测效果良好,与主流目标检测算法相比更适用于井下人员的检测。

    为了验证文中算法在井下人员多目标跟踪方面的表现,本文通过自建井下人员检测及跟踪数据集上进行验证,以YOLOv5s-DeepSort为基准,使用原算法的参数设置,对检测与跟踪阶段进行消融试验来验证文中两阶段改进各自的有效性,结果见表4

    表  4  多目标跟踪结果对比
    Table  4.  Comparison of multi-target tracking results
    算法AMOT/%PMOT/%IDSFPS参数量/MB
    YOLOv5s-DeepSORT83.3281.55164125.6
    改YOLOv5s-DeepSORT87.4786.32137111.19
    YOLOv5s-改DeepSORT82.3182.4473919.34
    本文算法89.1787.914675.91
    下载: 导出CSV 
    | 显示表格

    表4得出,文中目标检测阶段的改进在有效提升井下人员的检测精度的同时提升了检测速度,而跟踪阶段的改进有效减少了人员编号的转换,可以在出现人员遮挡的情况下有效提升检测的精度。文中检测及跟踪算法最终达到89.17%的精度;速率达到67帧;人员编码改变次数仅4次,目标编号改变次数降低了66.7%;参数量缩减到原始跟踪算法的23%。可以很好的满足井下人员实时检测及跟踪的需求。

    为了更加直观展示文中跟踪算法的效果,文中选用戴德KJXX12C型防爆矿用巡检机器人进行验证,如图10a所示,该装置搭载本安型“双光谱”摄像仪,最小照度达彩色0.002 lux,高粉尘环境下,可通过红外摄像仪辅助采集井下图像。采集与控制系统采用STM32ZET6芯片,上位机检测及跟踪主控系统采用Windows版工控机。图像信息会通过千兆无线通讯传输在远端上位机,将环境运行代码安装于上位机。图像信息经过本文算法处理,结果将存储并实时显示于主控界面,如图10b所示,主控界面采用CS架构,由C#语言编写。监测人员通过主控界面实时及历史数据对工作面作业人数是否合格进行判断。

    图  10  巡检机器人多目标跟踪效果
    Figure  10.  Inspection robot multi-target tracking effect

    图10c图10d图10e中可以观察到,在井下光照不足的环境中,井下2个作业人员相互遮挡并且持续行走一段距离后,巡检机器人能够进行稳定的检测跟踪并且其编号没有发生改变,实现有效计数,也能够证明我们改进的算法在复杂环境中出现井下人员遮挡时,也会在后续帧中匹配到被遮挡人员,对于遮挡情况具有良好的鲁棒性。

    1) 提出了一种改进YOLOv5s和DeepSORT的井下人员检测及跟踪算法。在YOLOv5s模型的基础上,使用轻量化网络ShuffleNetV2替换了原主干网络CSP-Darknet53,减少了模型的参数量。同时融入Transformer自注意力模块,可以提取到更多潜在的特征信息。使用多尺度特征融合网络BiFPN替换原Neck结构,能更好的融合全局深浅层信息与关键的局部信息。跟踪阶段使用更深层卷积强化了DeepSORT的外观信息提取能力。

    2) 利用自建井下人员检测及跟踪数据集对本文算法进行验证。结果表明,本文井下人员检测算法的准确率达到了92%,检测速率达到0.0148 s/帧。多目标跟踪算法准确率提高到了89.17%,目标编号改变次数降低了66.7%,并且拥有良好的实时性。

    3) 构建的改进YOLOv5s和DeepSORT的井下人员检测与跟踪算法能够实现在井下复杂环境中对人员的实时检测及跟踪,其参数量也缩减到原来的23%,不仅可以部署于煤矿监控系统,也可以部署在井下巡检机器人等小型嵌入式设备上,可以为井下人员的安全生产提供良好的保障。对于国家矿山安全监察局出台的《煤矿井下单班作业人数限员规定》早日实现智能化监测具有重要意义。

  • 图  1   矿井视觉计算的体系架构

    Figure  1.   Architecture of vision computing for underground coalmine

    图  2   煤矿井下部分场景

    Figure  2.   Underground coalmine environment

    图  3   典型特征算法与类型

    Figure  3.   Typical feature algorithm and classification

    图  4   煤矿井下人体动作识别效果

    Figure  4.   Action recognition in underground coalmine

    图  5   SLAM基本结构

    Figure  5.   Basic structure of SLAM

    图  6   感算一体与边缘智能架构

    Figure  6.   Architecture of sense computing integration and edge intelligence

    图  7   矿井视频识别示例

    Figure  7.   Mine video recognition examples

    图  8   多目标检测跟踪示例

    Figure  8.   Multiple object detection and tracking

    图  9   矿井视觉定位导航系统

    Figure  9.   Coalmine visual positioning navigation system

    图  10   矿井视觉计算增强临场感技术路线

    Figure  10.   Technical route of mine visual computing to enhance presence

    表  1   煤矿视频智能识别系统典型应用

    Table  1   Typical applications of video intelligent identification system in coal mine

    生产场景 典型应用 功能描述
    综采系统护帮检测监测工作面护帮板打开关闭、片帮状态,让机器及时感知护帮板的状态,能够检测设备是否正常运转
    断链识别监测刮板输送机的圆环链是否处在正常运行状态,一旦发生断链,立刻识别并报警
    滚筒识别实时监测割煤机前后滚筒位置、滚筒高度、运动方向,让机器及时感知滚筒的状态,能够检测设备是否
    正常运转
    大煤识别刮板输送机大块煤识别及告警,监测是否处在正常运行状态
    掘进系统危险监测综掘机处于开机运行状态时,系统识别到人员进入危险区域内时,声光报警器报警并停机,提示人员离开
    人员统计对整个掘进工作面所有区域的联动跟机分析判断掘进面现有人员的数量和实时的位置
    堆煤识别整个掘进工作面如果产生了大量的煤炭堆积在一起,导致掘进系统发生困难,立刻报警
    钻机识别从锚杆钻机工作状态判断当前是否在进行打锚杆操作,对锚杆钻机主要使用模型匹配方法进行识别
    运输系统输送带跑偏识别输送带和滚轮的左右边距变化来实时判断输送带是否有跑偏行为,一旦发生跑偏行为,给予提示纠正
    水煤检测检测运输的煤炭是否有水煤,因为潮湿的煤炭不符合生产质量,严重影响煤炭的经济价值
    煤量统计根据输送带实时载物百分比通过识别输送带上煤量和速度,利用机器学习的后台算法对输送带
    煤量实时识别
    煤矸识别煤矸石是一种含碳量较低,比煤坚硬的岩石,煤矸石降低原煤的纯度,从而影响原煤的经济价值
    提升系统尾绳监测检测尾绳运行状态,对摆动异常、尾绳散股、尾绳缠绕、尾绳脱落等异常进行报警
    断裂识别自动检测、判断钢丝绳变形情况(钢丝绳直径局部变大、局部变小、钢丝绳局部变形或损伤等)
    首绳检测提升机全速运行期间,全程实时检测每根钢丝绳直径、捻距、断丝、变形、磨损等外观缺陷
    箕斗残留箕斗残留检测,实时检测提升箕斗卸载的残留状态,卸载残留达到设定的阈值自动报警
    洗选系统输送带调速通过向PLC变频器发控制指令从而实现对输送带的五档智能调速,以达到节能降耗、减少设备磨损目的
    超温监测如果生产设备的超负荷运转,温度超过一定的阈值,会严重影响设备寿命,甚至引起火灾
    非法侵入当出现人员违规进入危险区域时,当遇到入侵、跨越、逗留等违规行为时,可进行告警,提醒人员离开
    异物识别对于分选系统中有锚杆、铁丝网、木块等非装载异物进行智能识别
    下载: 导出CSV

    表  2   煤矿视频智能预警系统典型应用

    Table  2   Typical application of video intelligent warning platform in coal mine

    生产场景 典型应用 功能描述
    关键岗位脱岗监测在关键岗位,检查工作人员是否脱离工作岗位,违反工作纪律,给生产造成重大的安全事故隐患
    睡岗检测在关键岗位,检查工作人员是否睡觉,违反工作纪律,给生产造成重大的安全事故隐患
    定期巡检在关键设备岗位,需要巡检人员定期检查设备的工作状况,通过摄像头感知人员是否按照时间到指定的场所检查设备
    姿态识别设计摄像头人员姿态估计识别算法,感知矿工的动作异常行为分析,比如下蹲、坐卧等异常姿态分析
    人员管理戴安全帽在矿区场景中,如果不带安全帽,会严重影响个人的人身安全,因此设计识别矿工是否佩戴安全帽算法
    穿工作服在矿区场景中,要统一穿工作服,不然会严重影响个人人身安全,因此设计识别矿工是否穿工作服进行施工
    非法闯入对监控区域进行7×24 h全天候管控,当监测到有人员靠近、闯入时,立即报警及时通知安全管理人员及时处理
    人员定位在井上井下场景中,需要了解每一个井下人员位置信息,以方便管理,因此设计摄像头算法定位矿工的地理位置信息
    特定场所积水检测在水泵房中,如果出现大面积的漏水或者积水,会威胁或影响生产,因此建立积水预警系统
    吸烟检测在矿区中,吸烟容易引起爆炸,从而威胁人员安全或影响生产,因此建立吸烟预警系统
    打架检测在特定场景中,比如综采工作面或掘进工作面,为防止矿工打架斗殴威胁人员的安全或影响生产,建立打架预警系统
    摔倒识别在特定场景中,比如综采工作面或掘进工作面,为防止人员意外摔倒威胁人员的安全或影响生产,建立摔倒预警系统
    入口出口人数统计在矿区出入口管理中,为控制入井的人数,在入口出口设置人数统计算法,发生拥塞,立刻报警
    拥堵检测在矿区出入口管理中,为防止交通堵塞或者人员拥堵,在入口出口设置拥堵检测算法,发生堵塞,立刻报警
    人脸识别为了方便矿区人员的管理考勤,例如准时上下班,在关键的矿井出入口设置人脸识别系统,可以考察人员考勤状态
    超限识别在矿区车辆装载货物时候,如果货物超出一定的高度,宽度,长度或者重量的时候,严重威胁矿里的安全系统要报警
    车辆管理车牌识别在能够识别进入井上和井下每一辆的车牌信息,以便了解矿山车辆的调度信息和运行状态,为车辆运维提供全面信息
    车辆逆行在有车辆巷道里面,为便于管理井下的交通,有些道路不允许逆行车辆,一旦发现车辆逆行,进行报警
    车辆违停在井下高危险作业基地,为便于管理井下的交通,危险的区域不允许车辆停放,发现车辆停放,立刻进行警
    超速识别在有车辆巷道里面,为避免交通事故,车辆不允许超速,发现车辆超速,进行报警
    下载: 导出CSV
  • [1] 王国法,赵国瑞,任怀伟. 智慧煤矿与智能化开采关键核心技术分析[J]. 煤炭学报,2019,44(1):34−41. doi: 10.13225/j.cnki.jccs.2018.5034

    WANG Guofa,ZHAO Guorui,REN Huaiwei. Analysis on key technologies of intelligent coal mine and intelligent mining[J]. Journal of China Coal Society,2019,44(1):34−41. doi: 10.13225/j.cnki.jccs.2018.5034

    [2] 王国法,王 虹,任怀伟,等. 智慧煤矿2025情景目标和发展路径[J]. 煤炭学报,2018,43(2):295−305. doi: 10.13225/j.cnki.jccs.2018.0152

    WANG Guofa,WANG Hong,REN Huaiwei,et al. 2025 scenarios and development path of intelligent coal mine[J]. Journal of China Coal Society,2018,43(2):295−305. doi: 10.13225/j.cnki.jccs.2018.0152

    [3] 范京道,徐建军,张玉良,等. 不同煤层地质条件下智能化无人综采技术[J]. 煤炭科学技术,2019,47(3):43−52. doi: 10.13199/j.cnki.cst.2019.03.006

    FAN Jingdao,XU Jianjun,ZHANG Yuliang,et al. Intelligent unmanned fully-mechanized mining technology under conditions of different seams geology[J]. Coal Science and Technology,2019,47(3):43−52. doi: 10.13199/j.cnki.cst.2019.03.006

    [4] 王家臣,PENG Syd S,李 杨. 美国煤炭地下开采与自动化技术发展[J]. 煤炭学报,2021,46(1):36−45.

    WANG Jiachen,PENG Syd S,LI Yang. State-of-the-art in underground coal mining and automation technology in the United States[J]. Journal of China Coal Society,2021,46(1):36−45.

    [5] 王国法,赵国瑞,胡亚辉. 5G技术在煤矿智能化中的应用展望[J]. 煤炭学报,2020,45(1):16−23. doi: 10.13225/j.cnki.jccs.YG19.1515

    WANG Guofa,ZHAO Guorui,HU Yahui. Application prospect of 5G technology in coal mine intelligence[J]. Journal of China Coal Society,2020,45(1):16−23. doi: 10.13225/j.cnki.jccs.YG19.1515

    [6] 李首滨. 煤炭智能化无人开采的现状与展望[J]. 中国煤炭,2019,45(4):5−12. doi: 10.3969/j.issn.1006-530X.2019.04.001

    LI Shoubin. Present situation and prospect on intelligent unmanned mining at work face[J]. China Coal,2019,45(4):5−12. doi: 10.3969/j.issn.1006-530X.2019.04.001

    [7]

    CHENG J, GANG Y, BAI S, et al. An Improved GMM-based moving object detection method under sudden illumination change[J]. Communications in Computer and Information Science. 2018, 952: 178-187.

    [8]

    MARR D. Vision: A computational Investigation into the human representation and processing of visual information[M]. W. H. Freeman and Company, 1982.

    [9] 马颂德, 张正友. 计算机视觉 : 计算理论与算法基础[M]. 北京: 科学出版社, 1998.
    [10] 谢剑斌. 视觉计算方法[M]. 北京: 科学出版社, 2017.
    [11] 胡占义. 计算机视觉: 历史、现状和发展趋势[EB/OL]. https://blog.csdn.net/qq_28168421/article/details/82835966, 2023-08-29.
    [12] 陈 龙,王 晓,杨健健,等. 平行矿山: 从数字孪生到矿山智能[J]. 自动化学报,2021,47(7):1633−1645.

    CHEN Long,WANG Xiao,YANG Jianjian,et al. Parallel mining operating systems: from digital twins to mining intelligence[J]. Acta Automation Sinica,2021,47(7):1633−1645.

    [13] 智 宁,毛善君,李 梅. 基于照度调整的矿井非均匀照度视频图像增强算法[J]. 煤炭学报,2017,42(8):2190−2197. doi: 10.13225/j.cnki.jccs.2017.0048

    ZHI Ning,MAO Shanjun,LI Mei. Enhancement algorithm based on illumination adjustment for non-uniform illumination video images in coal mine[J]. Journal of China Coal Society,2017,42(8):2190−2197. doi: 10.13225/j.cnki.jccs.2017.0048

    [14] 范伟强,刘 毅. 基于自适应小波变换的煤矿降质图像模糊增强算法[J]. 煤炭学报,2020,45(12):4248−4260. doi: 10.13225/j.cnki.jccs.2020.0785

    FAN Weiqiang,LIU Yi. Fuzzy enhancement algorithm of coal mine degradation image based on adaptive wavelet trans form[J]. Journal of China Coal Society,2020,45(12):4248−4260. doi: 10.13225/j.cnki.jccs.2020.0785

    [15] 吴佳奇,张文琪,陈 伟,等. 基于改进CycleGAN的煤矿井下低照度图像增强方法[J]. 华中科技大学学报(自然科学版),2023,51(5):40−46. doi: 10.13245/j.hust.229323

    WU Jiaqi,ZHANG Wenqi,CHEN Wei,et al. Image enhancement method of low illumination in coal mine based on improved CycleGAN[J]. Journal of Huazhong University of Science and Technology(Natural Science Edition),2023,51(5):40−46. doi: 10.13245/j.hust.229323

    [16] 张立亚,郝博南,孟庆勇,等. 基于HSV空间改进融合Retinex算法的井下图像增强方法[J]. 煤炭学报,2020,45(S1):532−540. doi: 10.13225/j.cnki.jccs.2020.0514

    ZHANG Liya,HAO Bonan,MENG Qingyong,et al. Method of image enhancement in coal mine based on improved re tex fusion algorithm in HSV space[J]. Journal of China Coal Society,2020,45(S1):532−540. doi: 10.13225/j.cnki.jccs.2020.0514

    [17]

    WEI C, WANG W, YANG W, et al. Deep Retinex decomposition for low-light enhancement[C] // Proceedings of the the British Machine Vision Conference. Newcastle, UK: Springer, 2018.

    [18]

    LIU R, MA L, ZHANG J, et al. Retinex-inspired unrolling with cooperation prior architecture search for low-light image enhancement[C] // Proceedings of the IEEE conference on computer vision and pattern recognition. Virtual: IEEE, 2021.

    [19]

    ZHANG X, GUO H. Research on an improved algorithm for image dehazing in underground coal mine[C] //Proceedings of the international conference on computer information science and artificial intelligence. Hulun Buir, China: IOP Publishing, 2020.

    [20] 程 健,闫鹏鹏,郁华森,等. 基于有向线段误匹配剔除的煤矿巷道复杂场景图像拼接方法[J]. 煤炭科学技术,2022,50(9):179−191. doi: 10.13199/j.cnki.cst.2021-0219

    CHENG Jian,YAN Pengpeng,YU Huasen,et al. Image stitching method for the complicated scene of coalmine tunnel based on mismatched elimination with directed line segments[J]. Coal Science and Technology,2022,50(9):179−191. doi: 10.13199/j.cnki.cst.2021-0219

    [21]

    XU Z,YANG W,YOU K,et al. Vehicle autonomous localization in local area of coal mine tunnel based on vision sensors and ultrasonic sensors[J]. PLoS ONE,2017,12(1):1−31.

    [22] 杨文娟,张旭辉,张 超,等. 基于三激光束标靶的煤矿井下长距离视觉定位方法[J]. 煤炭学报,2022,47(2):986−1001. doi: 10.13225/j.cnki.jccs.xr21.1762

    YANG Wenjuan,ZHANG Xuhui,ZHANG Chao,et al. Long distance vision localization method based on triple laser beams target in coal mine[J]. Journal of China Coal Society,2022,47(2):986−1001. doi: 10.13225/j.cnki.jccs.xr21.1762

    [23] 陈先中,刘荣杰,张 森,等. 煤矿地下毫米波雷达点云成像与环境地图导航研究进展[J]. 煤炭学报,2020,45(6):2182−2192. doi: 10.13225/j.cnki.jccs.zn20.0316

    CHEN Xianzhong,LIU Rongjie,ZHANG Sen,et al. Development of millimeter wave radar imaging and SLAM in underground coal mine environment[J]. Journal of China Coal Society,2020,45(6):2182−2192. doi: 10.13225/j.cnki.jccs.zn20.0316

    [24] 周李兵. 煤矿井下无轨胶轮车无人驾驶系统研究[J]. 工矿自动化,2022,48(6):36−48.

    ZHOU Libing. Research on unmanned driving system of underground trackless rubber-tyred vehicle in coal mine[J]. Journal of Mine Automation,2022,48(6):36−48.

    [25]

    DERPANIS K G. The harris corner detector[J]. York University,2004,2:1−2.

    [26]

    TRAJKOVIĆ M,HEDLEY M. Fast corner detection[J]. Image and vision computing,1998,16(2):75−87. doi: 10.1016/S0262-8856(97)00056-5

    [27]

    CALONDER M, LEPETIT V, STRECHA C, et al. Brief: Binary robust independent elementary features[C] //Computer Vision–ECCV 2010: 11th European Conference on Computer Vision, 2010: 778−792.

    [28]

    RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: An efficient alternative to SIFT or SURF[C] //2011 International conference on computer vision. IEEE, 2011: 2564−2571.

    [29]

    LOWE D G. Distinctive image features from scale-invariant key points[J]. International Journal of Computer Vision,2004,60(2):91−110. doi: 10.1023/B:VISI.0000029664.99615.94

    [30]

    BAY H,ESS A,TUYTELAARS T,et al. Speeded-up robust features (SURF)[J]. Computer vision and image understanding,2008,110(3):346−359. doi: 10.1016/j.cviu.2007.09.014

    [31]

    MOREL J M,YU G. ASIFT: a new framework for fully affine invariant image comparison[J]. SIAM Journal on Imaging Sciences,2009,2(2):438−469. doi: 10.1137/080732730

    [32]

    MIKOLAJCZYK K, SCHMID C. An affine invariant interest point detector[C] //Proceedings of the European Conference on Computer Vision. Copenhagen, Denmark: Springer, 2002.

    [33]

    MATAS J,CHUM O,URBAN M,et al. Robust wide-baseline stereo from maximally stable extremal regions[J]. Image and Vision Computing,2004,22(10):761−767. doi: 10.1016/j.imavis.2004.02.006

    [34]

    DUDA R O,HART P E. Use of the Hough transformation to detect lines and curves in pictures[J]. Communications of the ACM,1972,15(1):11−15. doi: 10.1145/361237.361242

    [35]

    MATAS J,GALAMBOS C,KITTLER J. Robust detection of lines using the progressive probabilistic hough transform[J]. Computer vision and image understanding,2000,78(1):119−137. doi: 10.1006/cviu.1999.0831

    [36]

    VON GIOI R G,JAKUBOWICZ J,MOREL J M,et al. LSD: A fast line segment detector with a false detection control[J]. IEEE transactions on pattern analysis and machine intelligence,2008,32(4):722−732.

    [37]

    AKINLAR C,TOPAL C. EDLines: A real-time line segment detector with a false detection control[J]. Pattern Recognition Letters,2011,32(13):1633−1642. doi: 10.1016/j.patrec.2011.06.001

    [38]

    GU G, KO B, GO S H, et al. Towards light-weight and real-time line segment detection[C] //Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(1): 726−734.

    [39]

    DAI X,GONG H,WU S,et al. Fully convolutional line parsing[J]. Neurocomputing,2022,506:1−11. doi: 10.1016/j.neucom.2022.07.026

    [40]

    ZHOU Y, QI H, MA Y. End-to-end wireframe parsing[C] //Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 962−971.

    [41]

    LIN Y, PINTEA S L, VAN GEMERT J C. Deep hough-transform line priors[C] //Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXII 16. Springer International Publishing, 2020: 323−340.

    [42]

    BLOESCH M, CZARNOWSKI J, CLARK R, et al. CodeSLAM—learning a compact, optimizable representation for dense visual SLAM[C] //Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 2560−2568.

    [43]

    LIU Y,GUO C,WANG Y. Object-aware data association for the semantically constrained visual SLAM[J]. Intelligent Service Robotics,2023,16(2):155−176. doi: 10.1007/s11370-023-00455-9

    [44] 程 健,王东伟,杨凌凯,等. 一种改进的高斯混合模型煤矸石视频检测方法[J]. 中南大学学报(自然科学版),2018,49(1):118−123.

    CHENG Jian,WANG Dongwei,YANG Lingkai,et al. An improved gaussian mixture model for coal gangue video detection[J]. Journal of Central South University (Science ang Technology),2018,49(1):118−123.

    [45]

    HE K, GKIOXARI G, DOLLÁR P, et al. Mask r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2961−2969.

    [46]

    CAI Z,VASCONCELOS N. Cascade R-CNN: high quality object detection and instance segmentation[J]. IEEE transactions on pattern analysis and machine intelligence,2019,43(5):1483−1498.

    [47]

    WANG T, XIONG J, XU X, et al. SCNN: A general distribution based statistical convolutional neural network with application to video object detection[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(1): 5321−5328.

    [48]

    FAN Q, ZHUO W, TANG C K, et al. Few-shot object detection with attention-RPN and multi-relation detector[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 4013−4022.

    [49]

    ZHU X, SU W, LU L, et al. Deformable detr: Deformable transformers for end-to-end object detection[J]. arXiv preprint arXiv: 2010.04159, 2020.

    [50]

    FAN D P,JI G P,CHENG M M,et al. Concealed object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,44(10):6024−6042.

    [51]

    DI L, DAI J, JIA J, et al. ScribbleSup: scribble-supervised convolutional networks for semantic segmentation[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016.

    [52]

    DAI J, HE K, SUN J. BoxSup: exploiting bounding boxes to supervise convolutional networks for semantic segmentation[C] //Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015.

    [53]

    BEARMAN A, RUSSAKOVSKY O, FERRARI V, et al. What's the Point: Semantic Segmentation with Point Supervision[C]//Proceedings of the European Conference on Computer Vision. Amsterdam, Netherlands: Springer, 2016.

    [54]

    HONG Y, PAN H, SUN W, et al. Representation separation for semantic segmentation with vision transformers[J]. arXiv preprint arXiv: 2212.13764, 2022.

    [55] 温廷新,王贵通,孔祥博,等. 基于迁移学习与残差网络的矿工不安全行为识别[J]. 中国安全科学学报,2020,30(3):41−46. doi: 10.16265/j.cnki.issn1003-3033.2020.03.007

    WEN Tingxin,WANG Guitong,KONG Xiangbo,et al. Identification of miners’unsafe behaviors based on transfer learning and residual network[J]. China Safety Science Juurnal,2020,30(3):41−46. doi: 10.16265/j.cnki.issn1003-3033.2020.03.007

    [56] 鞠春雷,聂方超,刘文岗,等. 基于长短期记忆网络的矿工不安全行为研究[J]. 煤矿安全,2020,51(9):260−264. doi: 10.13347/j.cnki.mkaq.2020.09.054

    JU Chunlei,NIE Fangchao,LIU Wengang,et al. Research on miner’s unsafe behavior based on long and short term memory[J]. Safety in Coal Mines,2020,51(9):260−264. doi: 10.13347/j.cnki.mkaq.2020.09.054

    [57]

    CHEN P,GAN C,SHEN G,et al. Relation attention for temporal action localization[J]. IEEE Transactions on Multimedia,2019,22(10):2723−2733.

    [58] 程 健,陈 亮,王 凯,等. 一种多特征融合的复杂场景动态目标跟踪算法[J]. 中国矿业大学学报,2021,50(5):1002−1010. doi: 10.13247/j.cnki.jcumt.001333

    CHENG Jian,CHEN Liang,WANG Kai,et al. Multi-feature fusion dynamic target tracking algorithm for complex scenes[J]. Journal of China University of Mining & Technology,2021,50(5):1002−1010. doi: 10.13247/j.cnki.jcumt.001333

    [59]

    LIU X,WANG Q,HU Y,et al. End-to-end temporal action detection with transformer[J]. IEEE Transactions on Image Processing,2022,31:5427−5441. doi: 10.1109/TIP.2022.3195321

    [60]

    ORDONEZ V, KULKARNI G, BERG T. Im2text: Describing images using 1 million captioned photographs[C] //Proceedings of the Conference on Neural Information Processing Systems. Granada, Spain: Curran Associates Inc, 2011.

    [61]

    HAYS J, EFROS A A. IM2GPS: estimating geographic information from a single image[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA: IEEE, 2008.

    [62] 程 健,叶 亮,郭一楠,等. 采空区地裂缝混合域注意力变形卷积网络检测方法[J]. 煤炭学报,2020,45(S2):993−1002. doi: 10.13225/j.cnki.jccs.2020.0164

    CHENG Jian,YE Liang,GUO Yinan,et al. An aerial image detection method of ground crack in goaf based on deformable convolutional network with hybrid domain attention[J]. Journal of China Coal Society,2020,45(S2):993−1002. doi: 10.13225/j.cnki.jccs.2020.0164

    [63]

    GALLAGHER L, KUMAR V R, YOGAMANI S, et al. A hybrid sparse-dense monocular slam system for autonomous driving[C] //Proceedings of the european conference on mobile robots. Bonn, Germany: IEEE, 2021.

    [64] 李首滨,李 森,张守祥,等. 综采工作面智能感知与智能控制关键技术与应用[J]. 煤炭科学技术,2021,49(4):28−39. doi: 10.13199/j.cnki.cst.2021.04.004

    LI Shoubin,LI Sen,ZHANG Shouxiang,et al. Key technology and application of intelligent perception and intelligent control in fully mechanized mining face[J]. Coal Science and Technology,2021,49(4):28−39. doi: 10.13199/j.cnki.cst.2021.04.004

    [65]

    GAO X, ZHANG T. Introduction to visual SLAM: from theory to practice[M]. Springer, 2021.

    [66]

    HUANG K, LI J, LIU Y, et al. A survey on feature point extraction techniques[C] //Proceedings of the International SoC Design Conference. Jeju Island, Korea: IEEE, 2021.

    [67] 龙霄潇,程新景,朱 昊,等. 三维视觉前沿进展[J]. 中国图象图形学报,2021,26(6):1389−1428.

    LONG Xiaoxiao,CHENG Xinjing,ZHU Hao,et al. Recent progress in 3D vision[J]. Journal of Image and Graphics,2021,26(6):1389−1428.

    [68]

    MORAN D, KOSLOWSKY H, KASTEN Y, et al. Deep Permutation Equivariant Structure from Motion[C] //Proceedings of the IEEE International Conference on Computer Vision. Virtual: IEEE, 2021.

    [69]

    SCHONBERGER J L, FRAHM J M. Structure-from-motion revisited[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016.

    [70]

    KLEIN G, MURRAY D. Parallel tracking and mapping for small AR workspaces[C] //Proceedings of the IEEE and ACM International Symposium on Mixed and Augmented Reality. Nara, Japan: IEEE, 2007.

    [71]

    CAMPOS C,ELVIRA R,RODRIGUEZ J J G,et al. Orb-slam3: An accurate open-source library for visual, visual–inertial, and multimap slam[J]. IEEE Transactions on Robotics,2021,37(6):1874−1890. doi: 10.1109/TRO.2021.3075644

    [72]

    EENGEL J, SCHOPS T, CREMERS D. LSD-SLAM: Large-scale direct monocular SLAM[C] //Proceedings of the European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014.

    [73]

    LI M,MOURIKIS A I. High-precision, consistent EKF-based visual-inertial odometry[J]. The International Journal of Robotics Research,2013,32(6):690−711. doi: 10.1177/0278364913481251

    [74]

    LIN J, ZHANG F. R3LIVE++: a robust, real-time, radiance reconstruction package with a tightly-coupled lidar-inertial-visual state estimator[EB/OL]. (2023-02-14) https://arxiv.org/abs/2109.07982.

    [75] 李猛钢,胡而已,朱 华. 煤矿移动机器人LiDAR/IMU紧耦合SLAM方法[J]. 工矿自动化,2022,48(12):68−78. doi: 10.13272/j.issn.1671-251x.2022100061

    LI Menggang,HU Eryi,ZHU Hua. LiDAR/IMU tightly-coupled SLAM method for coal mine robot[J]. Journal of Mine Automation,2022,48(12):68−78. doi: 10.13272/j.issn.1671-251x.2022100061

    [76]

    YU C, LIU Z, LIU X J, et al. DS-SLAM: A semantic visual SLAM towards dynamic environments[C] //Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems. Madrid, Spain: IEEE, 2018.

    [77]

    VON STUMBERG L,CREMERS D. DM-VIO: Delayed marginalization visual-inertial odometry[J]. IEEE Robotics and Automation Letters,2022,7(2):1408−1415. doi: 10.1109/LRA.2021.3140129

    [78]

    PATWARDHAN A,MURAI R,DAVISON A J. Distributing collaborative multi-robot planning with gaussian belief propagation[J]. IEEE Robotics and Automation Letters,2022,8:552−559.

    [79]

    TU C, TAKEULAI E, MIYAJIMA C, et al. Continuous point cloud data compression using SLAM based prediction[C] //Proceedings of the IEEE Intelligent Vehicles Symposium. Los Angeles, USA: IEEE, 2017.

    [80]

    KRUL S,PANTOS C,FRANGULEA M,et al. Visual SLAM for indoor livestock and farming using a small drone with a monocular camera: A feasibility study[J]. Drones,2021,5(2):41. doi: 10.3390/drones5020041

    [81]

    ZHANG S,ZHENG L,TAO W. Survey and evaluation of RGB-D SLAM[J]. IEEE Access,2021,9:21367−21387. doi: 10.1109/ACCESS.2021.3053188

    [82]

    ROSINOL A, LEONARD J J, CARLONE L. NeRF-SLAM: real-time dense monocular slam with neural radiance fields[EB/OL]. (2023-02-14) https://arxiv.org/abs/2210.13641.

    [83]

    XUE G,WEI J,LI R,et al. LeGO-LOAM-SC: an improved simultaneous localization and mapping method fusing LeGO-LOAM and scan context for underground coal mine[J]. Sensors,2022,22(2):520−525. doi: 10.3390/s22020520

    [84]

    PAN W,ZHENG J,WANG L,et al. A Future Perspective on In-Sensor Computing[J]. Engineering,2022,14(7):19−21.

    [85]

    HINTON G,VINYALS O,DEAN J. Distilling the knowledge in a neural network[J]. Computer Science,2015,14(7):38−39.

    [86]

    YIM J, JOO D, BAE J, et al. A gift from knowledge distillation: Fast optimization, network minimization and transfer learning[C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017.

    [87]

    NAGEL M, BAALEN M, BLANKEVOORT T, et al. Data-free quantization through weight equalization and bias correction[C]//Proceedings of the IEEE International Conference on Computer Vision. Seoul, Korea: IEEE, 2019.

    [88]

    BROGI A,FORTI S,GUERRERO C,et al. How to place your apps in the fog: state of the art and open challenges[J]. Software:Practice and Experience,2019,1(1):1−8.

    [89]

    ZHANG J, LI W, OGUNBONA P. Joint geometrical and statistical alignment for visual domain adaptation[C] //Proceedings of the IEEE conference on computer vision and pattern recognition. Honolulu, USA: IEEE, 2017.

    [90] 张立亚. 矿山智能视频分析与预警系统研究[J]. 工矿自动化,2017,43(11):16−20.

    ZHANG Liya. Research on intelligent video analysis and early warning system for mine[J]. Industry and Mine Automation,2017,43(11):16−20.

    [91]

    CHENG J, YE L, GUO Y, et al. Ground crack recognition based on fully convolutional network with multi-scale input[J]. IEEE Access, 2020, 8(1): 53034−53048.

    [92] 程德强,钱建生,郭星歌,等. 煤矿安全生产视频AI识别关键技术研究综述[J]. 煤炭科学技术,2023,51(2):349−365. doi: 10.13199/j.cnki.cst.2022-0359

    CHENG Deqiang,QIAN Jiansheng,GUO Xingge,et al. Review on key technologies of AI recognition for videos in coal mine[J]. Coal Science and Technology,2023,51(2):349−365. doi: 10.13199/j.cnki.cst.2022-0359

    [93] 原志明. 上湾煤矿安全智能视频系统设计及应用[J]. 煤炭科学技术, 2017, 45(2): 114-117.

    YUAN Zhiming. Application and design of safe intelligent video system in Shangwan Mine[J]. 2017, 45(2): 114-117.

    [94] 程 健,王瑞彬,郁华森,等. 矿井巷道复杂场景灭点检测方法[J]. 工矿自动化,2021,47(6):25−31. doi: 10.13272/j.issn.1671-251x.2021040097

    CHENG Jian,WANG Ruibin,YU Huasen,et al. Vanishing point de-tection method in complex environment of mine roadway[J]. Industry and Mine Automation,2021,47(6):25−31. doi: 10.13272/j.issn.1671-251x.2021040097

    [95] 王国法,刘 峰,庞义辉,等. 煤矿智能化−煤炭工业高质量发展的核心技术支撑[J]. 煤炭学报,2019,44(2):349−357. doi: 10.13225/j.cnki.jccs.2018.2041

    WANG Guofa,LIU Feng,PANG Yihui,et al. Coal mine intellectualization: The core technology of high quality development[J]. Journal of China Coal Society,2019,44(2):349−357. doi: 10.13225/j.cnki.jccs.2018.2041

    [96] 彭玉敬,刘传安,郜 彤,等. 煤矿企业安全风险防控与预警系统研究[J]. 煤炭技术,2019,38(3):184−187. doi: 10.13301/j.cnki.ct.2019.03.062

    PENG Yujing,LIU Chuanan,GAO Tong,et al. Study on safety risk prevention and early warning system of coal mine enterprise[J]. Coal Technology,2019,38(3):184−187. doi: 10.13301/j.cnki.ct.2019.03.062

    [97] 徐江陵. 基于物联网的智能化煤矿安全监控系统研究[J]. 煤炭技术,2018,37(8):229−231. doi: 10.13301/j.cnki.ct.2018.08.087

    XU Jiangling. Research on intelligent coal mine safety monitoring system based on internet of things[J]. Coal Technology,2018,37(8):229−231. doi: 10.13301/j.cnki.ct.2018.08.087

    [98] 王道元,王 俊,孟志斌,等. 煤矿安全风险智能分级管控与信息预警系统[J]. 煤炭科学技术,2021,49(10):136−144. doi: 10.13199/j.cnki.cst.2021.10.019

    WANG Daoyuan,WANG Jun,MENG Zhibin,et al. Intelligent hierarchical management & control and information pre-warning system of coal mine safety risk[J]. Coal Science and Technology,2021,49(10):136−144. doi: 10.13199/j.cnki.cst.2021.10.019

    [99] 程 健. 煤矿巷道机器人的管线视觉辅助定位与导航方法研究[J]. 煤炭科学技术,2020,48(7):226−232.

    CHENG Jian. Study on pipeline vision-aided positioning and navigation method for coal mine tunnel robot[J]. Coal Science and Technology,2020,48(7):226−232.

    [100]

    TRIGGS B, MCLAUCHAN P E, HARTLEY R I, et al. Bundle adjustment-a modern synthesis. vision algorithms: theory and practice[J]. Springer Berlin Heidelberg, 2000: 298−372.

    [101] 张旭辉. 数字孪生驱动的悬臂式掘进机虚拟操控技术[J]. 计算机集成制造系统, 2021, 27(6): 1617−1627.

    ZHANG Xuhui. Digital twin-driven virtual control technology of cantilever roadheader[J]. 2021, 27(6): 1617−1627.

    [102] 毛善君,鲁守明,李存禄,等. 基于精确大地坐标的煤矿透明化智能综采工作面自适应割煤关键技术研究及系统应用[J]. 煤炭学报,2022,47(1):515−526.

    MAO Shanjun,LU Shouming,LI Cunlu,et al. Key technologies and system of adaptive coal cutting in transparent intelligent fully mechanized coal mining face based on precise geodetic coordinates[J]. Journal of China Coal Society,2022,47(1):515−526.

    [103] 拓宏平,高锦磊,杨一特. 综采工作面视频拼接关键技术[J]. 智能矿山,2022,11:67−69.

    TUO Hongping,GAO Jinlei,YANG Yite. Key technology of video splicing in fully mechanized mining face[J]. Journal of Intelligent Mine,2022,11:67−69.

    [104] 徐华龙. 基于三维视频融合的矿井实时监测技术[J]. 煤矿安全,2021,52(1):136−139. doi: 10.13347/j.cnki.mkaq.2021.01.025

    XU Hualong. Mine real-time monitoring technology based on 3D video fusion[J]. Safety in Coal Mines,2021,52(1):136−139. doi: 10.13347/j.cnki.mkaq.2021.01.025

  • 期刊类型引用(2)

    1. 赵玉程,李英建,沈世民,韩玉喜,宋杰. 基于网格搜索和投票分类模型的喷油器故障诊断研究. 机床与液压. 2024(05): 213-220 . 百度学术
    2. 肖观红,鲁海峰. 基于PCA-GA-RF的矿井突水水源快速识别模型. 煤矿安全. 2024(06): 184-191 . 百度学术

    其他类型引用(2)

图(10)  /  表(2)
计量
  • 文章访问数:  361
  • HTML全文浏览量:  110
  • PDF下载量:  138
  • 被引次数: 4
出版历程
  • 收稿日期:  2023-02-13
  • 网络出版日期:  2023-08-04
  • 刊出日期:  2023-09-18

目录

/

返回文章
返回