数字孪生驱动的掘进机器人决策控制系统研究

张旭辉1,2,吕欣媛1,王 甜1,黄本鑫1,郑西利1

(1.西安科技大学 机械工程学院,陕西 西安 710054;2.陕西省矿山机电装备智能监测重点实验室,陕西 西安 710054)

摘 要:针对掘进设备远程控制中存在的设备决策能力低,掘进效率不高,安全隐患大等问题,提出了一种数字孪生驱动的掘进机器人决策控制方法。通过分析对比当前数字孪生技术在煤矿领域的研究情况,设计了数字孪生驱动的掘进机器人决策控制系统体系框架,包含物理空间、虚拟空间、孪生数据、规划层、控制层、执行层6个模块,以实现虚拟样机自主规划决策,远程控制物理样机同步运动的目的。首先,结合虚拟现实技术研究了非结构化环境下的局部避障策略,建立掘进机器人运动控制模型与传感观测模型,利用激光雷达将巷道中的障碍物在虚拟环境中进行重建,采用Ray-Col方法进行机器人与障碍物之间的碰撞检测,为机器人的路径规划决策奠定基础;其次,结合深度强化学习技术研究了基于虚拟智能体的全局路径规划方法,提出了基于改进PPO算法的Muti-PPO算法,通过奖惩机制建立掘进机器人虚拟智能体,并在Unity3D平台中进行训练,训练结果表明Muti-PPO算法相比于PPO算法、SAC算法,平均奖励值分别提升了13.82%与11.31%;标准差分别下降了17.85%与16.81%;最高奖励值分别提升0.14%与0.43%,其性能在3种算法中达到最优;最后,搭建决策控制平台,将虚拟空间中产生的决策指令发送至物理样机的末端执行器,通过物理样机传感器数据驱动虚拟样机同步变化。根据系统的规划决策、双向映射与远程控制功能,设计路径规划试验与虚实同动试验对其进行验证。路径规划试验结果表明,在3种不同复杂程度的工况下,虚拟智能体路径规划结果与目标点的误差在1.2 cm以内,且能够将控制信息传输至物理空间中,远程控制机器人运动;虚实同动试验结果表明,在掘进机器人运行过程中,虚拟样机与物理样机保持同步运动,两者在巷道中的位姿均保持一致。该方法实现了“数据驱动、双向映射、碰撞检测、自主决策、人机协作”的无人化决策控制新模式,为掘进设备的智能化提供了新的思路。

关键词:数字孪生;掘进设备;决策控制;虚拟智能体;人机交互

中图分类号:TD421

文献标志码:A

文章编号:0253-2336(2022)07-0036-14

移动扫码阅读

张旭辉,吕欣媛,王 甜,等.数字孪生驱动的掘进机器人决策控制系统研究[J].煤炭科学技术,2022,50(7):36-49.

ZHANG Xuhui,LYU Xinyuan,WANG Tian,et al.Research on decision control system of tunneling robot driven by digital twin[J].Coal Science and Technology,2022,50(7):36-49.

收稿日期:2022-02-11

责任编辑:周子博

DOI:10.13199/j.cnki.cst.2022-0176

基金项目:国家自然科学基金青年资助项目(52104166);陕西煤业化工集团有限责任公司联合基金资助项目(2021JLM-03);陕西省教育厅基金资助项目(21JK0759)

作者简介:张旭辉(1972—),男,陕西凤翔人,教授,博士生导师。E-mail:zhangxh@xust.edu.cn

Research on decision control system of tunneling robot driven by digital twin

ZHANG Xuhui1,2,LYU Xinyuan1,WANG Tian1,HUANG Benxin1,ZHENG Xili1

(1.School of Mechanical Enginerring,Xian University of Scienceand Technology, Xian 710054,China;2.Shaanxi Key Laboratory of Mine Electromechanical Equipment Intelligent Monitoring,Xian 710054,China)

Abstract:Aiming at the problems in remote control of tunneling equipment, such as low decision-making ability of equipment, less tunneling efficiency, and large security risks, a decision-making control method of tunneling robot driven by digital twin is proposed. By analyzing and comparing the current research situation of digital twin technology in the field of coal mine, the framework of digital twin-driven tunneling robot decision control system is designed, including six modules:physical space, virtual space, twin data, planning layer, control layer and execution layer. In this system, the virtual prototype can make planning decisions autonomously and control the synchronous motion of the physical prototype remotely. Firstly, the local obstacle avoidance strategy in unstructured environment is studied based on virtual reality technology. Motion control model and sensor observation model of tunneling robot are established, and obstacles in roadway are reconstructed in virtual environment by laser radar, Ray-Col method is used to detect the collision between robot and obstacle, which lays the foundation for robot path planning decision. Secondly, the global path planning method based on virtual agent is studied by combining deep reinforcement learning technology, the Muti-PPO algorithm based on the improved PPO algorithm is proposed, and the virtual agent of tunneling robot is established through the reward and punishment mechanism, and training in Unity3D platform, The training results show that compared with PPO algorithm and SAC algorithm, the average reward value of Muti-PPO algorithm is increased by 13.82% and 11.31% respectively. Standard deviation decreased by 17.85% and 16.81% respectively; the maximum reward value is increased by 0.14% and 0.43% respectively, and its performance is optimal among the three algorithms. Finally, a decision control platform is built to send the decision instructions generated in the virtual space to the end-effector of the physical prototype, and drive the synchronous change of the virtual prototype through the sensor data of the physical prototype. According to the planning decision, bidirectional mapping and remote control functions of the system, path planning experiment and virtual-real co-movement experiment are designed to verify it. The experimental results of path planning show that the error between the end point of virtual agent path planning and the target point is within 1.2 cm under three different complexity conditions, and the control information can be transmitted to the physical space to control the robot motion remotely. The experimental results show that the virtual prototype and the physical prototype are consistent in the roadway during the operation of the tunneling robot. This method realizes the new unmanned decision-making control mode of “data-driven, two-way mapping, collision detection, autonomous decision-making, and man-machine cooperation”, which provides a new idea for the intelligentization of tunneling equipment.

Key words:digital twin; tunneling equipment; decision-making control; virtual agent; man-machine interactive

0 引 言

我国“富煤、贫油、少气”的能源现状决定了煤炭仍将长期作为我国的主要支撑能源,国家大力推进“安全、高效、绿色、智能”的智慧矿山建设,并提出了“机械化减人、自动化换人、智能化无人”的发展战略[1]。具有履带式行走机构的悬臂式掘进机是煤矿综掘工作面的核心设备[2]。目前巷道掘进施工仍需要司机坐在驾驶位上对其进行控制,但是井下工矿环境恶劣,粉尘浓度较大,这种操作方式极易造成超挖、欠挖且存在很多安全隐患。因此,掘进装备智能化是推动智慧矿山建设的基础,而掘进装备的智能化控制是实现少人/无人化开采的前提。近年来,数字孪生(Digital Twin,DT)技术在智能制造领域得到了广泛关注[3],数字孪生技术为跨层级、跨尺度的现实世界与虚拟世界搭建了沟通的桥梁。将物理对象的数字模型映射在虚拟空间,并在虚拟空间中通过实测、仿真和数据分析来实时感知、诊断和预测物理实体对象的状态,通过优化和指令来调控物理实体[4-6]。将数字孪生与虚拟仿真技术进行有机结合并应用于煤矿设备智能化设计中,构建煤矿设备数字孪生体,使其可针对过去、现在的状况进行综合智能分析,对物理世界的变化进行感知、判断与决策[7-8]。吴淼等[9]针对掘进巷道“串行”工艺存在的问题,构建了基于数字孪生的综掘巷道并行工艺技术体系,对实现煤矿工业机器人智能决策与控制的相关技术进行了阐述,但缺少具体实现过程的描述且未设计试验验证系统具体功能。朱斌等[10]针对掘进工作面风口参数的调节问题,研究了基于数字孪生的综掘面风流出风口的自主学习和自主决策技术,该系统通过三维建模与仿真技术刻画物理测试系统的虚拟空间,但未阐述虚实空间中的数据交互过程,两者的同步运动性能难以保证。笔者等[11]针对煤矿采掘装备维修难的问题,融合数字孪生与混合现实技术开发了数字孪生驱动的煤矿机电设备故障远程维修指导系统。但该系统需要提前建立设备维修指导流程库,不能直接根据故障类型与设备机理自动规划维修方案。笔者等[12]针对悬臂式掘进机远程控制问题,基于数字孪生技术实现了掘进工作面虚实空间的深度融合与人机交互,但该系统中掘进设备仍然不具备自主决策能力,需要人工不间断对其进行远程干预,掘进效率有待进一步提升。通过上述分析,数字孪生技术为煤矿装备智能化发展提供了新的思路,但在设备虚实实时交互、自主规划、决策控制等方面仍面临严峻挑战。结合数字孪生技术、虚拟现实技术,深度强化学习技术,针对当前掘进工作面远程控制中存在的设备决策能力低,掘进效率不高等问题,提出了数字孪生驱动的掘进机器人决策控制系统体系框架。首先,在虚拟空间中对机器人进行碰撞检测,研究其在非结构化环境下的局部避障策略;其次,利用深度强化学习技术构建掘进设备虚拟智能体,使其具有自主规划决策能力;最后,结合数字孪生技术搭建了系统决策控制平台,通过路径规划试验与虚实同动试验对系统功能进行验证。实现数字孪生驱动下的“数据驱动、双向映射、碰撞检测、自主决策、人机协作”智能远程控制策略。

1 掘进机器人决策控制系统体系框架

当前煤矿采掘装备正处于从“自动化+可视化人工远程干预”向“智能化+自主化+无人化”的关键过渡时期,为了解决煤矿掘进工作面设备的远程控制问题,需要实现对掘进工作面工况环境的全面状态监测、协作设备之间的碰撞检测以及设备运行轨迹的自主规划。结合数字孪生技术,提出“数据驱动、双向映射、碰撞检测、自主决策、人机协作”技术体系,通过虚拟现实技术将设备本体结构、内在机理、规划结果等信息进行三维可视化呈现,实现复杂工况环境下掘进工作面“数字工作面+自主决策控制”的数字孪生应用模式,系统体系框架如图1所示,主要由物理空间、虚拟空间、孪生数据、规划层、控制层、执行层组成。

图1 系统体系框架
Fig.1 System architecture framework

1)物理空间是掘进工作面中生产设备、人员、环境以及各类传感器的集合,是系统控制的对象。利用激光雷达扫描工作面环境信息,通过捷联惯导采集设备的位姿信息。

2)虚拟空间不仅是物理空间的三维镜像化,也是物理空间中各个元素间的内在机理、操作机制和关联规则的数字化分析[13]。利用激光雷达在虚拟空间中重建障碍物,利用捷联惯导采集到的机器人位姿数据并对虚拟样机进行数据驱动,实现虚实空间双向映射。

3)孪生数据是虚实空间数据交互的载体,通过MySQL数据库构建物理对象与虚拟对象的闭环通道,实现虚拟孪生体与物理对象层间的双向映射与同步反馈。通过历史数据、运行数据、预测数据等的相互耦合和演化集成实现煤矿设备的对象孪生、过程孪生和性能孪生。

4)规划层是将决策的结果规划为实际可执行的路径或轨迹,并将其传递给控制层。利用深度强化学习对虚拟样机进行训练,将其作为一个Agent在虚拟空间中进行局部自主避障与全局路径规划。其中规划层与虚拟空间组合为虚拟智能体。

5)控制层是将决策指令经由PLC发送至物理空间的末端执行器,控制其完成相应的动作。捷联惯导与激光雷达再次采集数据更新虚拟空间中的三维信息,决策控制平台根据更新信息持续下发决策指令,以此循环完成掘进机器人的闭环控制。

6)执行层通过人机接口或智能控制终端,对设备进行状态监测、自主规划、碰撞检测等,实现快速捕捉异常状况、准确定位碰撞原因、合理规划行进路径。

2 非结构化环境下局部避障策略

结合虚拟现实技术,研究了非结构化环境下的机器人局部避障策略。建立机器人运动控制模型与传感观测模型,利用激光雷达在虚拟空间中重建障碍物,并设计Ray-Col碰撞检测方法,实现机器人在虚拟空间中的碰撞检测与避障控制。

2.1 机器人运动控制模型

要实现对掘进机器人的避障控制,首先要建立掘进机器人的运动控制模型,掘进机器人是通过左右履带差速提供驱动力的,当掘进机器人处于非调整姿态时,通过对两侧履带差速驱动实现机器人的直行或转弯等基本动作。

假设履带与地面之间无滑动,速度方向平行于地面,基于掘进机的工作环境将受限巷道空间中机器人的运动转化为二维运动学问题[14]

掘进机器人运动学模型如图2所示,左侧履带速度为vl,右侧履带速度为vr,机器人轴线方向行进速度为vy,转向角为β,角速度为机器人宽度为W。左右履带轮的速度可以表示为:

图2 掘进机器人运动学模型
Fig.2 Kinematic model of tunneling robot

(1)

将两式相减得:

(2)

由此得掘进机器人的角速度为:

(3)

两轮的差速关系决定了机器人的运动速度和转向速度,其中机器人转向时的瞬时曲率半径R为:

(4)

得到掘进机器人纵向轴线行进线速度表达式:

(5)

在机器人的运动方程中:

vx=0

(6)

(7)

(8)

将其转换至巷道坐标系中,则差速驱动履带式机器人的运动学方程为:

(9)

(10)

(11)

其中,分别为机器人沿x轴、y轴方向的线速度。

引入速率u作为控制变量,即:

(12)

(13)

式中,分别为机器人右侧履带和左侧履带的速率。

使用欧拉积分法得到该非线性系统的离散时间模型,即:

(14)

(15)

(16)

vr[(k+1)T]=vr(kT)+Tu1(kT)

(17)

vl[(k+1)T]=vl(kT)+Tu2(kT)

(18)

式中,T为时间;k为时间T的系数。

通过以上步骤,建立掘进机器人运动控制模型。在虚拟空间中重建障碍物并进行碰撞检测之后,通过掘进机器人运动控制模型,对双履带两侧的液压马达下发不同的控制信号,控制转速与转向实现机器人局部避障。

2.2 虚拟环境障碍物观测模型

利用虚拟现实技术在虚拟空间中训练虚拟样机将其作为智能体,从而产生自主决策行为控制真实机器人运动。为了在虚拟世界中映射物理世界,采用激光雷达将物理环境中的障碍物在虚拟环境中进行三维重建。

采用HOKUYO公司的URG-04LX二维激光扫描仪,安装于掘进机器人机身前侧并与其固连于同一平面内。同时在激光雷达的安装位置添加云台,使其绕轴旋转获得三维数据。

激光雷达的测距原理是通过计算发射调制光与目标反射接收光2个光强之间的相位差,得到目标距离。

(19)

式中,t为光波往返的时间间隔;D为发射处与目标之间的距离;c为激光速度。假设调制频率为f,光波往返的周期为N1,总的相位差为Δφ。时间间隔t表示为:

(20)

由式(19)与式(20)得:

(21)

当掘进机器人在井下行进时,通过机身上的激光雷达扫描获得极坐标点,对巷道环境中障碍物的观测值Z可用距离ρ和角度φ表示:

(22)

设激光雷达在巷道坐标系下的位置坐标为(xl,yl),激光雷达点云数据点转换至巷道坐标系下表示为(xk,yk):

(23)

式中,ρφ分别为激光雷达的探测距离与角度。

由此得到掘进机器人上安装的激光雷达观测模型可由下式表示:

(24)

式中,ωk为测量噪声。

障碍物重建过程如图3所示:

图3 障碍物重建过程
Fig.3 Obstacle reconstruction process

随着掘进机器人的行进过程对障碍物进行扫描,根据传感观测模型对激光雷达采集到的点云数据进行处理后存储进MySQL数据库中,实时读取最新数据并将其显示在数据库中。通过构建虚拟数据库接口,在Unity3D中实时读取最新一行数据,进行坐标匹配后形成新的点云坐标,设置三维栅格基准单元并对其进行实例化,并在每个坐标处根据基准单元进行克隆堆栈,从而完成障碍物的重建,为在虚拟空间中的碰撞检测奠定基础。

2.3 虚拟传感器碰撞检测

掘进机器人与障碍物之间的碰撞检测是避开障碍物的基础,层次包围盒法[15]是利用立体几何图形包裹三维模型,只有当包围盒之间相互接触时,其包围的三维模型才会发生碰撞,此种方法适合掘进巷道中作业区域动态变化的非结构化环境,以快速检测到碰撞行为。

为了给物理空间中的设备间预留安全距离,将虚拟空间中的禁行区域用膨胀1.1倍的盒型碰撞器(Box Collider)包围,在虚拟样机上添加虚拟激光雷达(Ray Perception Sensor),发出虚拟射线与场景中的包围盒进行碰撞,并返回碰撞信息,其原理如图4所示。

图4 碰撞检测原理
Fig.4 Schematic of collision detection

其添加效果如图5所示,射线的颜色随着距障碍物的距离远近由浅及深,发生碰撞的颜色为红色,未发生碰撞的颜色为白色。

图5 Ray-Obj碰撞检测方法
Fig.5 Ray-Obj collision detection method

在虚拟空间中,分别定义起点和方向2个矢量单位对虚拟激光雷达发出的射线进行描述:

(25)

其中,P为虚拟射线上的某一点;P0为射线的起点;为射线的方向,|α|=1;t为时间,为该点距离射线起点的距离。

将盒型碰撞体的长、宽、高分别设为a, b, c,取空间内任意一点A(x, y, z)为射线原点,盒型碰撞体的重心坐标为O(xo, yo, zo),则Ray-Col碰撞的出发区域为:


(26)

当虚拟射线上的任一点满足式(26)中约束条件时,射线与包围盒相交。射线起点到交点的距离则为虚拟样机与禁行区域之间的距离D。其碰撞检测流程如图6所示。

图6 碰撞检测流程
Fig.6 Flow of collision detection

根据井下实际工况,设置掘进机器人的碰撞预警阈值界限DmaxDmin,机器人与障碍物之间的相对距离为D

1)当DDmax时,掘进机器人在安全范围内,其运动轨迹保持不变;

2)当Dmax>DDmin时,系统发出碰撞预警提示,并在决策控制平台的状态监测模块中实时显示碰撞信息,提前规划避障路径。

3)当D<Dmin时,设备进入碰撞威胁阶段,系统检测掘进机器人与障碍物是否发生碰撞。若已发生碰撞,则系统下发急停指令,掘进机器人立即停止其运行状态;若未发生碰撞,执行避障路径,调整行进轨迹,保证掘进机器人安全行进。

3 基于虚拟智能体的全局路径规划

掘进机器人的路径规划是实现自主决策的重要一步,传统的路径规划方法在障碍物固定的结构化环境中效率较高,但不适用于与掘进巷道类似的未知环境中[16]。将深度强化学习(Deep Reinforcement Learning, DRL)引入机器人的路径规划问题中,提出了基于改进PPO算法的Muti-PPO算法,通过奖惩机制建立掘进机器人虚拟智能体,使其具备自主学习能力,实现设备在环境随机变化的情况下,自主完成路径规划并执行决策指令。

3.1 PPO算法

掘进机器人作为一个智能体(Agent),它是系统中的决策者和学习者。在每一个时刻,Agent 观测环境当前的状态,根据观测值O,对接下来的动作A进行决策,环境接收到Agent动作之后状态S会发生一定的改变,并给智能体一定的奖励值R,同时Agent根据新的观测值做出新的行动,其过程如图7所示。

图7 深度强化学习过程示意
Fig.7 Schematic of deep reinforcement learning process

近端策略优化(Proximal Policy Optimization, PPO)算法[17-18]是一种基于策略的策略梯度算法(Policy Gradient, PG),其核心思想是用含参函数π(a|s;θ)来近似最优策略,并用策略梯度优化策略参数θ,从而最大化期望奖励。PG算法中,参数θ更新的目标函数为:

LPG(θ)=Et[lg π(at|st;θAt]

(27)

其中,π(at|st;θ)为t时刻含参的策略函数,具体意义是指在t时刻的状态st下,Agent动作为at的策略函数,此时策略梯度优化策略参数为θA为动作空间,在时刻t,Agent根据观测结果决策动作AtA,在决策过程中,At=a;其优势在于可以在连续的状态空间中选择相应的决策行为,缺点在于由于难以选择合适的步长而导致效率低下的问题。PPO算法中将新旧策略的比值rt(θ)作为目标函数的一部分,避免更新前的策略π(a|s;θk)与当前策略π(a|s;θ)差距过大。目标函数设计为:

L(θ)=Et[rt(θ)At]

(28)

其中:

(29)

在最大化奖励函数的过程中,可能会引起较大的策略更新而导致策略突变,因此需要通过截断的方式对目标函数式(27)进行约束。即添加截断函数clip优化目标函数:

Lclip(θ)=Et[min(rt(θ)At,clip((rt(θ),1-ε,1+ε)At)]

(30)

其中,ε∈(0,1)为指定参数。在截断函数clip(a,amin,amax)中,a为动作输入,amin为被限定的最小值,amax为被限定的最大值。如图8所示,当A>0时,表明当前动作的积极效果大于平均值,应增大选择该动作的概率,但同时不能过于增大,因此在1-ε处截断。同理,当A<0时,表明当前动作的积极效果低于平均值,应减少选择该动作的概率,但同时不能过于降低,因此在1+ε处截断。

图8 clip函数示意
Fig.8 clip function

3.2 Muti-PPO算法

PPO算法可以解决传统PG算法中步长难以确定的问题[19],为加快Agent的训练速度,将多智能体与PPO算法结合(Muti-PPO),即设置多个相同且独立的Agent,基于训练环境并行运行多个场景,它们之间可以共享奖励信号,从而加速并稳定训练过程。

如图9所示,每个训练环境中包含多个场景。每个场景中都具有相同数量与类型的Agent,并且都具有一个可以共享状态信息、动作信息、奖励值的接口,在训练的同时相互之间可以进行交互。每种类型的Agent都对应一个策略-价值网络,如果M个场景中共有N种Agent,共有,那么一共有N个策略-价值网络。在一个步长t内,第i种Agent的观测量为:

图9 多智能体训练场景
Fig.9 Multi agent training scenario

(j∈1,…,M)

环境状态为:

由于每个场景是同时运行的,因此网络模型可以同时从M个场景中获得训练数据。每个网络模型都包括策略网络π(At|St;θ)与价值网络v(St;w),且均具有3个隐层。利用策略网络的输出at与具有Agent观测结果的价值网络来对模型进行训练。在一个步长t内,网络模型获取环境状态St并输出智能体动作At。在策略网络中,仅将第i种Agent的局部观测量作为输入,价值网络则将所有Agent的全局观测量作为输入。在此基础上,结合PPO算法,一个场景中N种智能体的策略参数为式(31),策略集合为式(32),价值参数为(33),价值集合为式(34)。

θ={θ(1),…,θ(N)}

(31)

π={π(1),…,π(N)}

(32)

w={w(1),…,w(N)}

(33)

V={V(1),…,V(N)}

(34)

其中,θ为策略函数π的策略参数;w为价值函数V的价值参数。如式(31)中θ(1)表示为在一个场景中,第一个Agent的策略参数,因此式(31)表示为在一个场景中,N种Agent的策略参数集合。式(32)—式(34)同理。

在一个步长t内,第i个Agent的动作为环境中所有Agent的动作为式(35):

(35)

观测量为策略网络π(i)的输入:

(36)

环境中所有Agent的观测量为价值网络π(i)的输入:

(37)

其中,为步长t内其他智能体的观测量。价值网络V(i)输出当前状态S给第i个智能体。如图10所示,以两个Agent为例描述Muti-PPO的学习过程,在一个场景中,有两个Agent具有不同的奖励函数,在每个场景中分别由各自的策略控制。每个策略都与包含了多个场景的训练环境进行交互,并使用经验回放训练策略-价值网络。这个过程包括经验值回放与策略更新两个阶段。在经验值回放阶段中,每个策略都在M个场景中控制M个Agent,M个Agent并行运行,策略根据式(36)中的观测值输出动作并从环境中获取奖励R,当所有Agent完成一个回合时,每个策略生成的M个轨迹均被存放在经验池中。在策略更新阶段中,有效轨迹选择器从经验池中选择有效轨迹,每个策略都会得到自己以及其他策略在步长t中所控制的Agent的有效轨迹。

图10 Muti-PPO算法学习过程
Fig.10 Muti-PPO algorithm learning process

在实际中,如果上一策略π(a|s;θk)太小,则式(29)中分母约为0,无法准确进行计算,因此重新设计rt

(38)

式中,为在步长t内,第i个Agent的动作;为步长t内,第i个Agent的状态观测量;θ(i)为第i个Agent的策略参数;为第i个Agent在上一策略中的策略参数。

目标函数为式(39),其中在式(40)中。


(39)

(40)

在该目标函数中,策略的更新范围限制在[-ε,ε]。在式(40)中,t∈[0,T],折扣因子γ∈[0,1]。折扣因子γ决定了如何在最近的奖励和未来的奖励间进行折中:未来t步后得到的单位奖励相当于当下得到的γt单位奖励。若指定γ=0,Agent仅考虑眼前奖励值。若γ=1,Agent考虑当下单位奖励与未来单位奖励同样重要。价值网络的损失函数为:

(41)

式中,t为Agent的步长;t′为Agent的未来步长。

该算法的具体过程见表1。

表1 Muti-PPO算法流程

Table 1 Muti PPO algorithm flow

Muti-PPO算法流程 输入:环境状态St输出:动作a(i)t参数:策略更新时目标的限制参数ε(ε>0),优化器,折扣因子γ,控制回合数K和回合内步数T,场景数M,智能体类型总数N1:随机初始化策略网络πθ(i)为任意值;价值网络Vw(i),w为任意值;2:初始化经验池;3:初始化最大回合数、最大步数、T、K4:for 回合数=1 to 最大回合数 do5:初始化包含M个训练场景的环境状态S;6:for t=0 to 最大步数 do7:每个Agent i,运行策略π(i)θ(i)(O(i)t),执行动作a(i)t;8:执行动作a(i)t,获取新的奖励r和环境状态9:S←S'10:end for11:将生成的轨迹存放在经验池中;12:for 每个Agent i=1 to N do13:计算步长T内经验池中的有效轨迹; 14:根据式(40)计算A(i)V=(A(i)V0,…,A(i)Vi,…,A(i)VT);15:for k=1 to K do16:在步长T内轨迹中随机抽取小批量样本;17:通过式(39)计算Lclip(θ(i));18:更新θ以减小Lclip(θ(i))=Er[min(rt(θ)(i))A(i)Vi,clip(rt(θ(i)),-ε,ε)A(i)Vi];

续表

Muti-PPO算法流程 19:通过式(41)计算L(w(i));20:end for21:end for22:for Agent i=1 to N do23:w(i)k←w(i)24:end for25:end for

3.3 奖惩函数设计

奖惩函数的目标是使Agent根据奖励函数所提供的条件与奖励值,来获取与环境交互后的反馈信号,通过回合制更新的方法累积奖励,以此来学习正确的策略并规划出一条累积奖励值最大的轨迹[20]。在每个回合中,当Agent避障失败或者在规定步长内未达到目标点时结束该回合的训练。在本文中,惩罚值设置在-1.5~0,奖励值设置在0~1.5。将奖励函数内容划分为3部分:

1)根据巷道全局地图进行路径规划,规划出一条从起点至目标点的路线。通过Agent与目标点之间的距离来判断是否到达目标点,如果成功到达,则获得奖励Rend=1.0。

2)通过Agent上的虚拟激光雷达检测障碍物,来进行局部避障。为考虑安全距离,障碍物上的包围盒相对于原物体膨胀了1.1倍,当激光雷达发出的虚拟射线与包围盒距离D=0,判定为避障失败,结束该回合并获得惩罚RObstical=-1.0;判断出障碍物的类型,并成功避开一个障碍物,则获得奖励Rdistance=1.5。

3)为缩短Agent到达目标点的时间,避免因稀疏奖励带来的效率低下问题,为Agent设置外部奖励函数,即在其行动后的每一步都添加一个负奖励Rtime=-0.005。因此,奖励函数为:

R=Rend+Robstical+Rdis+Rtime

3.4 训练结果分析

使用Socket实现Unity3D与Python间的通讯,将虚拟智能体在Unity3D平台中进行训练,Muti-PPO算法的参数设置如下:

学习率(learning rate)0.000 3截断常数ε0.2折扣因子γ0.99批量大小(batch_size)128经验池大小(buffer_size)2 048泛化优势估计λ0.95每回合最大步数(Max_step)10 000 000

Unity3D与Python通信成功界面如图11所示。

图11 Unity3D与Python通讯成功界面
Fig.11 Interface for successful communication between Unity3D and python

最终训练结果图12所示,将Muti-PPO、PPO、SAC三种算法分别在同一环境中训练1×107次进行对比。图12a表示训练过程中,智能体所获奖励走势图,智能体所获奖励越多,说明选择正确行动的概率越大;图12b表示每一轮训练回合长度,回合长度越小,说明智能体避开障碍物到达目标点的效率越高;图12c表示训练过程中的损失值变化曲线,智能体在训练过程中损失值越小,表明实际所获的平均奖励与理论奖励越靠近。

在图12a中,Muti-PPO算法的收敛速度最快,在达到最大奖励值时迭代次数最少。在图12b中,随着训练迭代次数的增加,Muti-PPO算法的回合长度最先达到最短。在图12c中,PPO算法与SAC算法的损失值下降趋势相近,相比之下,Muti-PPO算法损失值收敛速度最快。表2中对比了三种算法的性能,其中根据奖励值的均值与标准差来评估算法鲁棒性的优势。

图12 训练结果
Fig.12 Training results

表2 3种算法性能对比分析

Table 2 Performance comparison and analysis of three algorithms

算法Muti-PPOPPOSAC平均奖励值1.407 91.236 91.264 8最高奖励值1.838 11.835 61.830 2达到最高奖励值步数8.4×1068.07×1069.42×106鲁棒性1.407 9±0.821 61.236 9±1.000 11.264 8±0.987 6

通过分析表3可知,SAC算法在获得平均值与鲁棒性方面均优于PPO算法,但在最高奖励值与达到最高奖励值步数方面低于PPO算法。而Muti-PPO在4个方面的性能均达到了最优。其中平均奖励值较PPO与SAC算法分别提升了13.82%与11.31%;标准差分别下降了17.85%与16.81%;最高奖励值分别提升0.14%与0.43%。

4 试验与验证

4.1 决策控制平台介绍

基于Unity3D虚拟现实开发平台,搭建了如图13所示决策控制平台。该平台由机器人三维状态监测模块、机体参数显示模块、人工远程干预模块、机器人导航定位模块与机器人通信连接状态显示模块组成。

图13 掘进机器人决策控制平台
Fig.13 Decision control platform of tunneling robot

4.2 路径规划对比试验验证

设置3类复杂程度不同的场景,并分别使用Muti-PPO、A*算法、Nev-Mesh寻路算法进行规划,共设计九组试验对比分析3种方法的规划效率。用履带式机器人模拟掘进机器人,用实验室楼道环境模拟井下巷道,泡沫板模拟井下障碍物。试验平台如图14所示,掘进巷道尺寸为600 cm×210 cm,掘进机器人尺寸为58.5 cm×53 cm,激光雷达型号为URG-04LX,捷联惯导型号为TM352。

图14 基于虚拟智能体的路径规划试验平台
Fig.14 Experimental platform of path planning based on virtual agent

3种复杂道路情况分别如图15所示,以巷道左下角为坐标原点建立巷道坐标系,以巷道宽度方向为Y轴,长度方向为X轴,机器人行动目标点坐标为(600,105),机器人在3种情况下的行进轨迹分别如图16—图18所示。

图15 3种巷道情况
Fig.15 Three roadway conditions

图16 第1类复杂情况
Fig.16 Type I complex situation

图17 第2类复杂情况
Fig.17 Type II complex situation

图18 第3类复杂情况
Fig.18 Type III complex situation

第1类复杂环境中,障碍物处于远离巷道中心线的两侧边界位置,障碍物之间距离间隔较大,对掘进机器人规划任务干扰较小;第2类复杂环境相比于第1类障碍物尺寸较大且障碍物之间距离间隔较小,规划难度适中;第3类工况环境中,存在干涉设备、禁行区域等占地面积较大的障碍物,且其处于靠近巷道中心线的位置,对掘进机器人规划任务干扰较大。

图中线框代表巷道形状,3条曲线分别代表3种算法下的轨迹,黑色方块代表禁行区域,曲线上的线框代表与禁行区域距离最近轨迹的机器人轮廓,用于判断行进过程中与障碍物之间的距离,设置安全距离为10 cm,用机器人在巷道中的总行进长度以及与障碍物之间的最短距离判断其行进效率,若机器人与障碍物之间的距离大于10 cm,则表示避障成功,称为有效轨迹,试验对比结果见表3。

表3 试验对比结果

Table 3 Experimental comparison results

巷道情况类别算法起点终点距离障碍物最近距离/cm轨迹总长度/cm是否有效第1类Muti-PPO(0, 60.7)(600,105.9)11661.7±0.8是A*(0, 60.7)(600,106.5)22689.2±0.8是Nev-Mesh(0, 60.7)(600,106.6)20693.1±0.8是第2类Muti-PPO(0,105)(600,106.1)12695.3±0.8是A*(0,105)(600,106.3)13745.6±0.8是Nev-Mesh(0,105)(600,106.4)8727.1±0.8否第3类Muti-PPO(0,105)(600,106.2)12689.8±0.8是A*(0,105)(600,106.5)16717.9±0.8是Nev-Mesh(0,105)(600,106.75)11749.2±0.8是

由表4可知,在第2类巷道情况中,Nev-Mesh算法下机器人与障碍物的最短距离为8 cm小于10 cm,因此为无效轨迹,而Muti-PPO(本文算法)与A*算法在3种巷道情况中均为有效轨迹;在3类巷道情况中,Muti-PPO(本文算法)与目标点的误差均为最小,分别为0.9 cm、1.1 cm、1.2 cm;行进轨迹总长度均为最短,分别为(661.7±0.8)、(695.3±0.8)、(689.8±0.8) cm。

4.3 虚实同动试验验证

为验证系统在虚实空间中的“双向映射”性能,在实验室楼道环境下设计了虚实同动试验,在决策控制平台中发出控制指令,远程控制机器人运动,同时通过采集机器人机身上的传感器数据对虚拟样机进行数据驱动,使虚拟样机与物理样机在巷道中的位姿均保持一致,机器人在4个位姿状态时的虚实对比如图19所示,左图为物理样机,右图为虚拟样机。

图19 机器人虚实空间位姿
Fig.19 Virtual and real space pose of robot

在每组对比试验中,机器人虚拟样机与物理样机的位姿保持同步,实现了虚实空间的双向映射。因此可以在决策控制平台的三维状态监测模块中,根据虚拟样机的位姿状态,反应掘进机器人在实际环境中的位姿信息,同时虚拟样机下发对掘进机器人的远程控制指令,以此循环最终实现以设备自主决策为主,以人工远程干预为辅的掘进机器人远程控制。

5 结 论

1)研发了一种掘进机器人决策控制系统,阐述了数字孪生驱动的系统体系框架,提出了“数据驱动、双向映射、碰撞检测、自主决策、人机协作”技术体系。

2)结合虚拟现实技术,将传感器采集到的物理世界的数据在虚拟空间中三维呈现,提出Ray-Col碰撞检测方法,将虚实数据有机融合,实现非结构化环境下的局部避障。

3)结合深度强化学习算法,利用基于改进PPO的Muti-PPO算法构建虚拟智能体,使其具备自主决策能力,训练结果表明Muti-PPO算法相比于PPO算法、SAC算法,其性能达到最优。

4)通过试验表明,在3种不同复杂程度的工况下,虚拟智能体路径规划结果与目标点的误差在1.2 cm以内,且在掘进机器人运行过程中,虚实空间状态均保持一致。

5)数字孪生驱动的掘进机器人决策控制系统能够有效再现物理空间状态,建立了以设备自主决策为主,人工干预为辅的远程控制模式,对实现智能化掘进工作面奠定了一定基础。

参考文献(References):

[1] 王国法,任怀伟,庞义辉,等.煤矿智能化(初级阶段)技术体系研究与工程进展[J].煤炭科学技术,2020,48(7):1-27.

WANG Guofa,REN Huaiwei,PANG Yihui, et al. Smart coal mine technical system research and engineering progress in the early stages[J]. Coal Science and Technology, 2020,48(7):1-27.

[2] 雷孟宇,张旭辉,杨文娟,等.煤矿掘进装备视觉位姿检测与控制研究现状与趋势[J/OL].煤炭学报:1-14[2021-12-28]. https://kns.cnki.net/kcms/detail/11.2190.td.20210603.1627.001.html.

LEI Mengyu, ZHANG Xuhui, YANG Wenjuan, et al. Research status and trend of visual pose detection and control of coal mine tunneling equipment[J/OL]. Journal of China Coal Society:1-14[2021-12-28]. DOI:10.13225/j.cnki.jccs.JJ21.0534. https://kns.cnki.net/kcms/detail/11.2190.td.20210603.1627.001.html.

[3] 陶 飞,程 颖,程江峰,等.数字孪生车间信息物理融合理论与技术[J].计算机集成制造系统,2017,23(8):1603-1611.

TAO Fei, CHENG Ying, CHENG Jiangfeng,et al. Theories and technologies for cyber-physical fusion in digital twin shopfloor[J]. Computer Integrated Manufacturing Sytems,2017,23(8):1603-1611.

[4] 张辰源,陶 飞.数字孪生模型评价指标体系[J].计算机集成制造系统,2021,27(8):2171-2186.

ZHANG Chenyuan, TAO Fei. Evaluation index system for digtal twin model[J]. Computer Integrated Manufacturing Sytems,2021,27(8):2171-2186.

[5] 陶 飞,张辰源,张 贺,等.未来装备探索:数字孪生装备[J].计算机集成制造系统,2022,28(1):1-16.

TAO Fei, ZHANG Chenyuan, ZHANG He, et el.Future equiment exploration:Digital twin equipment[J]. Computer Integrated Manufacturing Systems, 2022,28(1):1-16.

[6] 丁恩杰,俞 啸,夏 冰,等.矿山信息化发展及以数字孪生为核心的智慧矿山关键技术[J].煤炭学报,2022,47(1):564-578.

DING Enjie,YU Xiao, XIA Bing, et al.Development of mine iformatization and key technologies of smart mine with digital twin as the core[J]. Journal of China Coal Society,2022,47(1):564-578.

[7] 张旭辉,杨文娟,薛旭升,等.煤矿远程智能掘进面临的挑战与研究进展[J].煤炭学报:2022,47(1):579-597.

ZHANG Xuhui, YANG Wenjuan, XUE Xusheng, et al.Challenges and developing of the intelligent remote control on roadheaders in coal mine[J]. Journal of China Coal Society:2022,47(1):579-597.

[8] 王 岩,张旭辉,曹现刚,等.掘进工作面数字孪生体构建与平行智能控制方法研究[J/OL].煤炭学报:1-12[2022-03-13]. https://kns.cnki.net/kcms/detail/11.2190.TD.20220308.1050.002.html.

WANG Yan, ZHANG Xuhui, CAO Xiangang, et al. Research on the construction of digital twin and parallel intelligent control method for excavationface[J/OL]. Journal of China Coal Society:1-12[2022-03-13].https://kns.cnki.net/kcms/detail/11.2190.TD.20220308.1050.002.html.

[9] 吴 淼,李 瑞,王鹏江,等.基于数字孪生的综掘巷道并行工艺技术初步研究[J].煤炭学报,2020,45(S1):506-513.

WU Miao, LI Rui, WANG Pengjiang,et al. Preliminary study on parallel technology of fully mechanized roadway based on digital twin[J].Journal of China Coal Society, 2020,45(S1):506-513.

[10] 朱 斌,张 奎,张有为,等.综掘面风流智能调控数字孪生系统[J/OL].计算机集成制造系统:1-19[2021-12-28]. https://kns.cnki.net/kcms/detail/11.5946.TP.20210809.1344.010.html.

ZHU Bin, ZHANG Kui, ZHANG Youwei,et al. Intelligent control digital twin system of air flow in fully mechanized mining face[J/OL].Computer Integrated Manufacturing Systems :1-19[2021-12-28].https://kns.cnki.net/kcms/detail/11.5946.TP.20210809.1344.010.html.

[11] 张旭辉,张 超,王妙云,等.数字孪生驱动的悬臂式掘进机虚拟操控技术[J].计算机集成制造系统,2021,27(6):1617-1628.

ZHANG Xuhui, ZHANG Chao, WANG Miaoyun, et al. Digital twin-driven virtual control technology of cantilever roadheader[J].Computer Integrated Manufacturing Systems, 2021,27(6):1617-1628 .

[12] 张旭辉,张雨萌,王 岩,等.融合数字孪生与混合现实技术的机电设备辅助维修方法[J].计算机集成制造系统,2021,27(8):2187-2195.

ZHANG Xuhui, ZHANG Yumeng, WANG Yan,et al. Auxiliary maintenance method of electromechanical equipment integrating digital twin and hybrid reality technology [J]. Computer Integrated Manufacturing Systems,2021, 27(8):2187-2195.

[13] 宋 林,王立平,吴 军,等.基于信息物理融合和数字孪生的可靠性分析[J].吉林大学学报(工学版),2022,52(2):439-449.

SONG Lin, WANG Liping, WU Jun,et al. Reliability analysis based on information physical fusion and digital twin[J]. Journal of Jilin University (Engineering Edition) ,2022,52(2):439-449.

[14] 张敏骏,蔡岫航,吕馥言,等.受限巷道空间区域栅格化掘进机自主纠偏研究[J].仪器仪表学报,2018,39(3):62-70.

ZHANG Minjun, CAI Xiuhang, LYU Fuyan, et al. Research on roadheader auto rectification in limited roadway space based on regional grid[J].Chinese Journal of Scientific Instrument, 2018,39(3):62-70.

[15] 王妙云,张旭辉,马宏伟,等.远程控制综采设备碰撞检测与预警方法[J].煤炭科学技术,2021,49(9):110-116.

WANG Miaoyun, ZHANG Xuhui, MA Hongwei,et al Collision detection and early warning method of remote controlled fully mechanized mining equipment[J]. Coal Science and Technology,2021,49(9):110-116.

[16] 马宏伟,王世斌,毛清华,等.煤矿巷道智能掘进关键共性技术[J].煤炭学报,2021,46(1):310-320.

MA Hongwei, WANG Shibin, MAO Qinghua,et al. Key common technology of intelligent heading in coal mine roadway[J]. Journal of China Coal Society,2021,46(1):310-320.

[17] 申 怡,刘 全.基于自指导动作选择的近端策略优化算法[J].计算机科学,2021,48(12):297-303.

SHEN Yi,LIU Quan.Proximal policy optimization based on self-directed action selection[J]. Computer Science, 2021,48(12):297-303.

[18] 李 丽,郑嘉利,罗文聪,等.基于近端策略优化的RFID室内定位算法[J].计算机科学,2021,48(4):274-281.

LI Li,ZHENG Jiali,LUO Wencong,et al. RFID indoor positioning algorithm based on proximal policy optimization[J]. Computer Science, 2021,48(4):274-281.

[19] 黄东晋,蒋晨凤,韩凯丽.基于深度强化学习的三维路径规划算法[J].计算机工程与应用,2020,56(15):30-36.

HUANG Dongjin, JIANG Chenfeng, HAN Kaili. 3D path planning algorithm based on deep reinforcement learning[J]. Computer Engineering and Applications,2020,56(15):30-36.

[20] 李 跃,邵振洲,赵振东,等.面向轨迹规划的深度强化学习奖励函数设计[J].计算机工程与应用,2020,56(2):226-232.

LI Yue, SHAO Zhenzhou, ZHAO Zhendong, et al.Design of reward function in deep reinforcement learning for trajectory planning[J].Computer Engineering and Applications, 2020,56(2):226-232.