煤矿智能化是煤矿工业转型升级、解决人才流失困局,实现高质量发展的重大战略方向[1]。由国家发改委等八部委联合出台的《关于加快煤矿智能化发展的指导意见》,推动我国煤炭行业进入煤矿智能化发展的高速阶段。煤矿智能化的基本特征是实现矿井人机环管的全面感知,实时互联,自主分析与决策[2]。其运行的基础实现煤矿多源数据的集成分析与数据价值挖掘,从而以数据为矿山赋能。随着煤矿智能化技术深度推进,其数据量级及类型均成爆炸式增长,利用大数据技术实现生产、安全、运维各环节与业务领域的深度分析与融合,成为助推煤矿安全、高效、绿色发展的基石[3-5]。
当前煤矿大数据技术发展得到广泛重视,国内外各大煤矿企业及研究机构均对其大数据平台进行规划并展开相应的数据处理研究。国外方面,以德国PSI公司、鲁尔集团、澳联邦科学院等为代表,依靠高速监测与数据处理决策系统,实现生产流程的精细化管控与安全预控。国内方面,对于煤矿大数据平台技术架构进行了探索建设,并对其数据存储技术及安全数据处理进行了相关研究[6-10]。但是总体而言,目前国内有关煤矿大数据平台的建设,主要集中于井上管控信息化系统主数据建设,对于生产业务相关信息系统,由于缺乏统一的数据标准和模型,难以实现数据互联。另一方面,针对煤矿工业场景的数据深度处理方法目前研究较少,难以发挥大数据的价值。
综上所述,目前煤矿大数据研究处于初级阶段,还未能形成成熟的理论体系。笔者在分析煤矿大数据特征及处理要求的基础上,梳理智能化煤矿大数据分析平台技术架构,对其数据处理过程中涉及的数据获取、数据集成与服务、数据深度分析及数据可视化关键技术进行具体研究,旨在推动煤矿大数据平台完成顶层设计,实现数据赋能,构建智能化煤矿数据生态。
随着煤矿信息化技术的不断发展,煤矿数据几何级数增加,包括生产、安全、管理、运销等诸多方面涉及的设备、环境、人员、调度等近百个子系统的相关数据,其数据范围广,数据结构多样。从数据来源角度划分,煤矿大数据以设备环境监测及生产经营业务等内部数据为主,并分布管理包括煤矿市场动态、供应服务商信息、气象信息等外部数据。从数据结构种类划分,煤矿大数据包括各种SCADA系统及智能仪表所生产的结构化数据,管理过程中所产生的报表等半结构化数据以及包括井下视频、音频、图纸、文档等非结构化数据。
目前大数据技术在商业、金融等领域应用广泛。而应用于工业现场,煤矿大数据除满足数据规模大,高速性、多样性、价值密度低等基本数据特征外[8],还具有数据源分散,数据结构复杂,时效性强,特征数据稀疏,关联性强等特征,对大数据处理提出更高要求。
1)煤矿数据源分散。煤矿数据产生包括生产监控SCADA系统,GIS地理信息系统,安全管控系统,MES生产执行系统,调度管理系统,ERP管理系统等不同系统,这些系统由不同部门分散放置、分布管理,造成“信息孤岛”。
2)煤矿数据结构复杂。煤矿数据类型极为多样,其数据长短,数据频率,数据格式都不同。因此在对这些数据进行处理时,特别是对其进行关联分析时产生较大难度。
3)时效性强。煤矿行业实行24 h倒班作业,因此对于数据的处理必须实时与准确,特别是针对生产安全相关数据的处理,需实现快速反馈甚至是提前预测。
4)数据特征稀疏。煤矿数据量虽大,但能显示其有效数据特征的数据极少,往往只存在浅层趋势信息,缺乏具有限制特征的数据样本,如设备故障数据或环境灾害数据,因此亟需挖掘其潜在特征关联,实现数据预测与决策。
5)数据关联性强。煤矿监测数据强调时序性,数据全生命周期过程时序关联;而生产过程中各关键环节相互耦合,特别是与地理信息系统中的空间数据具有较强关联。
针对煤矿特殊数据特征,煤矿大数据技术架构显著区别于传统数据挖掘技术,提出更高的数据处理要求:
1)多种数据源抽取融合。大数据平台通过集成主流关系型数据库,非关系型数据库,流式数据等多种抽取方法,形成融合数据抽取方案,对业务数据,物联网数据和外部数据完成覆盖式收集。
2)多类型ETL方法融合。为了保证数以万计的物联网节点产生的实时数据流能够被及时处理,增加基于大数据分布式技术的ETL集群,并且支持横向扩容,消除数据清洗瓶颈。
3)实时流式计算。为保证数据处理的时效性,构建流式计算框架,并基于分布式内存并行计算,兼具数据处理速度与计算内存调度管理。
4)多元数据服务融合。为支撑煤矿智能化不同系统的数据应用,大数据平台包含了从算法库到数据接口的多元化数据服务,特别是对于元数据的数据管理,支撑煤矿安全高效生产需求。
5)人工智能算法实现数据挖掘。应用深度学习、知识图谱等算法挖掘数据纵向和横向关联关系,实现全面态势感知与预测。
基于Hadoop大数据平台的生态已发展出较为成熟技术架构,针对煤矿大数据分析平台自下而上包括数据接入层、数据存储层、数据资产管理层、数据服务层等。如图1所示。
图1 智能化煤矿大数据分析平台技术架构
Fig.1 Technical framework of intelligent coal mine big data analysis platform
在该总体技术架构下,煤矿大数据主要针对其数据接入与存储系统,主数据管理系统及数据服务系统进行搭建,从而建立大数据平台基础框架,为大数据融合分析处理提供基础数据与资源能力。
数据源的特征决定了数据采集功能的实现方式。根据前文所述煤矿数据来源,主要包括各生产SCADA系统的实时数据,各信息化系统的关系型数据库,各类消息队列,图纸报表文件等各类文档以及视频音频等非结构化数据。
针对实时生产数据(SCADA、智能仪表、生产实时数据库),需要强大的分布式ETL处理集群(Kafka+Spark),才能完成海量高频率(毫秒级)的实时数据采集。针对各类信息化系统所涉及的关系数据库,由于数据频率较低,通过开发组件将数据库为Json或Xml进行定时采集。对于图纸、报表、文件等各类文档非结构化数据一方面对服务器源目录实时监听,对文件实时采集;另一方面开发相应分析Meta Server组件,对文件进行解析,抽取元数据进行结构化数据存储。经过标准化的数据结合业务应用决定了数据存储方案,包括结构化数据(Hive、MySQL、Hbase),半结构化数据(Hbase),文件(HDFS)等,同时提供结构化数据库,列式数据库,时序数据库,文件系统等多种类型的数据存储介质。煤矿大数据接入与存储系统数据处理流程如图2所示。
图2 智能化煤矿大数据接入与存储系统
Fig.2 Intelligent coal mine big data access and storage system
主数据描述了煤矿企业核心业务实体。通过构建煤矿主数据管理系统,将关键业务价值数据进行分发与共享,打通数据壁垒,实现各主要环节的数据资源共享[12]。
煤矿主数据管理系统采用面向服务的体系机构(SOA),主要包括业务规则定义,主数据生成,主数据上传,主数据发布,主数据分发等环节。基于ESB企业服务总线,为各业务系统提供主数据中间件,并完成主数据同步工作。以主数据、共享数据、系统交换数据为核心,通过对于数据标准管理实现数据质量管理闭环,使数据信息纵向贯通和横向共享。煤矿主数据管理系统架构如图3所示。
图3 煤矿智能化主数据管理系统模型
Fig.3 Model of intelligent coal mine master data management system
根据业务对于煤矿数据集进行结构化划分,形成煤矿数据主题域。可分为地理信息管理主题域,经营管理主题域,煤矿生产主题域,机电管理主题域,安健环主题域,辅助运输主题域,分选加工主题域以及智慧工业厂区主题域等。根据数据分类属性,将各系统抽取的数据归属于不同数据主题集市中。
在形成数据集市的基础上,面向服务架构,调用Restful和RPC协议,应用先进的微服务架构,构建包括地质信息、生产执行、辅助运输、分选加工、综合调度等智能引擎,从而实现全面的组态化开发,达到前后端分离及灵活配置,最终实现应用界面与业务逻辑的快速组态化构建,满足各类智能化煤矿应用的功能与性能需要。
针对煤矿大数据处理要求,目前智能化煤矿主要技术瓶颈集中于数据获取与数据标准管理,数据集成与数据治理,数据分析与融合处理以及数据可视化关键技术。
数据标准化是系统相关数据信息纵向贯通、横向共享的基础,将直接关系到智能化煤矿各应用系统的数据共享、系统集成与信息联动的成功与否,是进行大数据分析的前提条件。如前所述煤矿数据特征,其重要特征是与煤矿空间位置特征产生关联。基于这一联系,化工领域进行设计与数据采集的位号标准已较为成熟。因此笔者参考现有位号标准及煤矿实际应用情况,设计应用于煤矿领域的位号数据标准(图4),以解决数据标准及管理问题。
图4 基于位号的煤矿数据编码标准
Fig.4 Standard of coal mine data coding based on bit number
主项编码由煤层编号,区域分类号,地点编号3个部分组成,以确定系统所在位置。煤层编号表示所处煤层位置,由2位编码构成。其中00代表地面,0G代表井筒,其余编号根据所采煤层情况具体设定;区域分类号代表所采煤层中的不同工作区域,如车场、盘区、大巷等,通过2位编码表述;地点编号在工作区域范围内确定具体的工作地点及位置,如工段,工作面等,由3位编码表述。从而将各系统与其位置信息建立联系,便于后期处理过程中的数据关联分析。
智能化煤矿数据来源多样,其数据频率各异,因此对于煤矿数据的集成,尤其是对于数据特征描述以及数据关联关系的描述,成为研究的重点。因此,对于煤矿大数据平台,其元数据管理技术以及数据治理平台的构建至关重要。
元数据包括业务元数据,技术元数据以及管理元数据。元数据管理是贯穿于数据整个生命周期。以元数据管理为核心,以数据的事前、事中和事后管理为步骤,构建以采集、存储、管理为数据全生命管理的数据流程化管控平台。其数据治理流程如图5所示。
图5 煤矿数据治理流程
Fig.5 Management process of coal mine data
将数据生命周期划分为数据定义阶段、数据存储、数据加载转换以及数据应用、数据归档阶段。在数据定义阶段,分析煤矿各业务系统特征描述,对其元模型进行设计,结合煤矿数据标准梳理业务术语、评价方法与煤矿智能化技术要求之间的关系,从而建立数据字典,构建业务数据主题域;在数据获取与存储阶段,对于业务元数据根据数据主题域构建逻辑数据模型,从而指导设计技术元数据提取过程中的计算、统计转换等规则,构架数据质量规则技术描述,将数据标准模板与设计的元模型进行映射,保证数据按设计模型进行存储;数据共享与应用阶段,一方面,通过元模型之间的组合和依赖关系描述数据间的复杂逻辑关系,另一方面,基于元数据进行数据关联度分析以及血缘分析,研究数据对象影响范围,回溯其处理过程,实现数据全生命周期可见。
大数据面对全量数据进行处理,从海量数据中分析潜在模态与规律。传统大数据分析方法主要针对数据进行统计性的搜索、分类、比较、聚类等分析和归纳。通过大数据实现了对于煤矿数据的多维采集以及数据融合处理,使信息提炼为知识,成为可能。鉴于此,本文主要针对基于人工智能的大数据分析技术在煤矿中的应用进行探索,以实现煤矿工业现场的数据智能分析。
1)基于循环神经网络的数据预测。煤矿工业场景以实时监测数据为主,强调时序性。针对时序数据问题,实现对于历史数据的异常检测与分类以及对于未来数据的状态预测是其关键。针对这一问题,采用循环神经网络进行深度学习与泛化,在煤矿数据预测方面具有较强的适用范围。笔者以综采工作面矿压数据为例,提出其数据处理与预测方法。
LSTM(Long Short-Term Memory)长短期记忆人工神经网络是循环神经网络的一种。LSTM模型主要由遗忘门、更新门及输出门组成。进行数据预测首先对于数据进行归一化处理,将每组数据归一化到(-1,1)区间中。之后将待处理数据按时间步转化为序列,将数据迭代输入网络进行数据训练,如图6所示。
图6 基于循环神经网络的数据预测处理流程
Fig.6 Process of data prediction based on cyclic neural network
将过去9个时刻的历史数据作为序列输入,进行时间序列滑行输入,以预测第10时刻的矿压数据。根据数据维度对输入输出的全连接层进行设置,设置神经网络层数,确定网络结构。对模型训练成功后,用少量其他工作面数据,对模型进行迁移学习训练,从而实现模型的迁移泛化。基于大数据平台为模型训练提供大量数据样本,从而实现数据纵向的挖掘分析。
2)基于知识工程的态势感知与推理。煤矿大数据平台向下实现多源异构感知数据的接入、集成和融合,向上为各种煤矿智能化APP开发提供数据服务,打通感知数据和数据智能应用之间的屏障。通过煤矿大数据平台使多源数据信息实现数据融合以及关联分析,从而在全局视角实现识别、决策以及控制。通过对于领域知识的建模,构建知识的语义描述与不确定性推理,并进行数据的自主推送,实现对于煤矿大数据横向关联关系的分析,达到闭环管控的目标。
在元数据管理的基础上,基于本体与语义描述实现对于煤矿数据的广义描述,从而构建煤矿信息实体;在进行任务分解的基础上,对于信息实体关联进行分析[16],进而基于知识工程,实现对于煤矿相关环节的不确定性推理,提高系统的响应以及知识获取的能力。目前,基于粗糙集的推理、贝叶斯网络推理、不确定性因果图等知识推理的人工智能算法已在其他工业场合得到深入研究与部分应用[17-18]。综上,通过大数据平台为煤矿智能化提供了基础的数据能力,在其上如何应用人工智能算法实现数据智能化赋能,实现煤矿生产的动态诊断与辅助决策,成为煤矿智能化的关键。
1)定制化数据报表系统。借助大数据平台,有效整合煤矿全方位信息,实现企业数据与分析成果的即时分享和业务协同,重点关注包括煤矿生产,安全风险管控,资源调度,设备管理等煤矿经营相关信息,寻找数据内在关联价值。通过定制化工具,针对用户业务角度进行全面分析,为业务决策提供有效支撑与辅助。
2)数据驾驶舱。数据驾驶舱是面向煤矿调度管理层的决策支持系统。通过详尽的指标体系、实时反映煤矿的运行状态,运用适合的查询、OLAP分析、数据挖掘等管理分析工具对信息进行处理,使信息变为辅助决策的知识,将采集的数据形象化、直观化、具体化。提供全面精准的数据展现,直观形象的图形化展现,便捷快速的指示检索,能够按需定制、深度分析。煤矿数据驾驶舱系统如图7所示。
图7 煤矿数据驾驶舱系统
Fig.7 Coal mine data cockpit system
基于本文所研究的智能化煤矿大数据平台目前正在陕煤张家峁煤矿及延长石油巴拉素煤矿进行建设与工程实践。项目在设计阶段对于数据的全生命周期管理进行了统一规划,形成了包括数据分类、数据资源、数据集成、数据处理、数据质量及数据安全六类数据标准,实现了数据标准化建设,解决设备层数据采集通信协议不统一的问题。
通过煤矿生产执行平台对底层设备环境数据进行采集,并实现生产相关系统的协同控制;将各系统数据以消息队列的形式抽取并进行清洗,汇聚至大数据分析平台,利用数据为煤矿智能化业务场景的预测预警、关联分析、指标评价、数据可视化等提供服务,为智能化煤矿建设奠定数据基础。
当前系统、平台建设还在初步扩展与完善中,在前期的建设过程中已在安全风险预控、工作面状态评价、生产效率、综合管理等方面取得显著成效。综采工作面大数据分析系统应用成果的可视化展示如图8所示。
图8 综采工作面大数据集成分析平台应用
Fig.8 Application of big data integrated analysis platform for fully mechanized mining face
1)智能化煤矿大数据平台向下实现多源异构感知数据的接入、集成和融合,向上为各种煤矿智能化APP开发提供数据服务,打通感知数据和数据智能应用之间的屏障,实现数据赋能,是煤矿智能化运行的基础。
2)智能化煤矿大数据平台建设关键是构建数据接入与存储系统,主数据管理系统及数据服务系统,以满足煤矿大数据处理需求,为大数据融合分析处理提供基础数据与资源能力。
3)数据获取与数据标准管理,数据集成与数据治理,数据分析与融合处理以及数据可视化是智能化煤矿大数据处理的关键技术。应用人工智能算法实现数据纵向和横向的智能化分析,实现煤矿生产的动态诊断与辅助决策,成为煤矿智能化的关键。
[1] 王国法,刘 峰,庞义辉,等.煤矿智能化:煤炭工业高质量发展的核心技术支撑[J].煤炭学报,2019,44(2):349-357.
WANG Guofa, LIU Feng, PANG Yihui, et al.Coal mine intellectualization:the core technology of high quality development[J].Journal of China Coal Society,2019, 44(2):349-357.
[2] 王国法, 王 虹, 任怀伟, 等.智慧煤矿2025:情境目标和发展路径[J].煤炭学报, 2018, 43(2):295-305.
WANG Guofa, WANG Hong, REN Huaiwei, et al.2025’scenarios and development path of intelligent coal mine[J].Journal of China Coal Society, 2018,43(2):295-305.
[3] 谢和平,王金华,王国法,等.煤炭革命新理念与煤炭科技发展构想[J].煤炭学报,2018,43(5):1187-1197.
XIE Heping, WANG Jinhua, WANG Guofa, et al.New ideas of coal revolution and layout of coal science and technology development[J].Journal of China Coal Society, 2018, 43(5):1187-1197.
[4] 毛善君.“高科技煤矿”信息化建设的战略思考及关键技术[J].煤炭学报, 2014, 39(8):1572-1583.
MAO Shanjun.Strategic thinking and key technology of informatization construction of high-tech coal mine[J].Journal of China Coal Society, 2014, 39(8):1572-1583.
[5] 王国法,杜毅博.智慧煤矿与智能化开采技术的发展方向[J].煤炭科学技术,2019,47(1):1-10.
WANG Guofa,DU Yibo.Development direction of intelligent coal mine and intelligent mining technology[J].Coal Science and Technology,2019,47(1):1-10.
[6] 毛善君,刘孝孔,雷小锋,等.智能矿井安全生产大数据集成分析平台及其应用[J].煤炭科学技术,2018,46(12):169-176.
Mao Shanjun, Liu Xiaokong, Lei Xiaofeng et al.Research and application on big data integration analysis platform for intelligent mine safety production[J].Coal Science and Technology,2018,46(12):169-176.
[7] 姜德义,魏立科,王 翀,等.智慧矿山边缘云协同计算技术架构与基础保障关键技术探讨[J].煤炭学报,2020,45(1):484-492
JIANG Deyi, WEI Like, WANG Chong, et al.Discussion on the technology architecture and key basic support technology for intelligent mine edge-cloud collaborative computing[J].Journal of China Coal Society,2020,45(1):484-492.
[8] 崔亚仲,白明亮,李 波.智能矿山大数据关键技术与发展研究[J].煤炭科学技术,2019,47(3):66-74.
CUI Yazhong, BAI Mingliang, LI Bo.Key technology and development research on big data of intelligent mine[J].Coal Science and Technology,2019,47(3):66-74.
[9] 李福兴,李璐爔.面向煤炭开采的大数据处理平台构建关键技术[J].煤炭学报,2019,44(S1):362-369.
LI Fuxing, LI Luxi.Key technologies of big data processing platform construction for coal mining[J].Journal of China Coal Society, 2019,44(S1):362-369.
[10] 韩 安.基于Hadoop的煤矿数据中心架构设计[J].工矿自动化,2019,45(8):60-64.
HAN An.Architecture design of coal mine data center based on Hadoop[J].Industry and Mine Automation, 2019,45(8):60-64.
[11] 李 萌,魏 玮.基于SOA的主数据管理架构设计及实践[J].兵工自动化,2015,34(8):49-51,64.
LI Meng, WEI Wei.Design and practice of master data management architecture based on SOA[J].Ordnance Industry Automation, 2015,34(8):49-51,64.
[12] 孙继平.煤矿事故分析与煤矿大数据和物联网[J].工矿自动化,2015,41(3):1-4
SUN Jiping.Accident analysis and big data and internet of things in coal mine[J].Industry and Mine Automation, 2015,41(3):1-4.
[13] 王国法, 赵国瑞, 任怀伟.智慧煤矿与智能化开采关键核心技术分析[J].煤炭学报,2019,44(1):34-41.
WANG Guofa, ZHAO Guorui, REN Huaiwei.Analysis on key technologies of intelligent coal mine and intelligent mining[J].Journal of China Coal Society, 2019,44(1):34-41.
[14] 张东霞,苗 新,刘丽平,等.智能电网大数据技术发展研究[J].中国电机工程学报,2015,35(1):2-12.
ZHANG Dongxia, MIAO Xin, LIU Liping, et al.Research on development strategy for smart grid big data[J].Proceedings of the CSEE, 2015,35(1):2-12.
[15] 赵毅鑫,杨志良,马斌杰,等.基于深度学习的大采高工作面矿压预测分析及模型泛化[J].煤炭学报,2020,45(1):54-65.
ZHAO Yixin, YANG Zhiliang, MA Binjie, et al.Deep learning prediction and model generalization of ground pressure for deep longwall face with large mining height[J].Journal of China Coal Society, 2020,45(1):54-65.
[16] 王国法,杜毅博,任怀伟,等.智能化煤矿顶层设计研究与实践[J/OL].煤炭学报:1-16.[2020-05-09].https://doi.org/10.13225/j.cnki.jccs.
WANG Guofa,Du Yibo,REN Huaiwei,et al.Top level design research and practice of smart coal mine[J/OL].Journal of China Coal Society, 1-16.[2020-05-09].https://doi.org/10.13225/j.cnki.jccs.
[17] 张 勤.DUCG:一种新的动态不确定因果知识的表达和推理方法(Ⅰ):离散、静态、证据确定和有向无环图情况[J].计算机学报,2010,33(4):625-651.
ZHANG Qin.A new methodology to deal with dynamical uncertain causalities(I):the static discrete DAG case[J].Chinese Journal of Computers, 2010,33(4):625-651.
[18] 赵 越,董春玲,张 勤.动态不确定因果图用于复杂系统故障诊断[J].清华大学学报:自然科学版,2016,56(5):530-537,543.
ZHAO Yue, DONG Chunling, ZHANG Qin.Fault diagnostics using DUGG in complex systems[J].Journal of Tsinghua University:Science and Technology, 2016,56(5):530-537,543.