基于LASSO-LARS的回采工作面瓦斯涌出量预测研究

陈 茜1,黄连兵2

(1.煤炭工业规划设计研究院有限公司,北京 100120;2.山东科技大学 电子信息工程学院,山东 青岛 266590)

摘 要:正确预测瓦斯涌出量对于煤矿安全生产有重要的现实意义,但是,工作面瓦斯涌出规律复杂,瓦斯涌出量各影响因素之间存在多重共线性,严重影响了预测的准确性。为研究回采工作面瓦斯涌出量与其多个影响因素之间的关系和特点,消除各因素之间的多重共线性,避免瓦斯涌出量预测出现“维数灾难”以及发生函数过拟合等问题,采用LASSO惩罚回归预测模型进行仿真预测,在原始特征空间的基础上,通过LARS算法实现降维,剔除无关和冗余的特征,最终筛选出一个包含煤层埋藏深度、煤层厚度、煤层瓦斯含量、煤层挥发分产率、风量和煤层间距等6个高影响因素在内的最优特征子集,并使用交叉验证法将数据集分成10份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。最终,选取最高识别率的测试集参数建立预测模型,对煤矿现场数据进行预测,并与传统的主成分分析法预测结果进行了比较。研究结果表明:应用该模型预测回采工作面瓦斯涌出量,能够较好的保存原始数据集的特征意义,预测平均相对误差为6.52%,平均相对变动值为0.006,均方根误差为3.20,在预测精度和泛化能力方面,均明显优于传统的主成分分析回归模型,能够为井下瓦斯防治提供理论参考,对其他工程领域高维小样本数据预测问题的解决具有借鉴意义。

关键词:瓦斯涌出;特征选择;回归算法;预测模型;涌出量预测

中图分类号:TD712

文献标志码:A

文章编号:0253-2336(2022)07-0171-06

移动扫码阅读

陈 茜,黄连兵.基于LASSO-LARS的回采工作面瓦斯涌出量预测研究[J].煤炭科学技术,2022,50(7):171-176.

CHEN Qian,HUANG Lianbing.Gas emission prediction from coalface based on Least Absolute Shrinkage and Selection Operator and Least Angle Regression[J].Coal Science and Technology,2022,50(7):171-176.

收稿日期:2021-10-02

责任编辑:常 琛

DOI:10.13199/j.cnki.cst.2019-0439

基金项目:国家科技重大专项资助项目(2016ZX05045-007-001);中国煤炭科工集团有限公司科技创新创业资金资助项目(2018MS037)

作者简介:陈 茜(1986—),女,山东枣庄人,副研究员,硕士。E-mail:365039211@qq.com

Gas emission prediction from coalface based on Least Absolute Shrinkage and Selection Operator and Least Angle Regression

CHEN Qian1,HUANG Lianbing2

(1.Planning & Design Research Institute of Coal Industry Co.,Ltd., Beijing 100120,China;2.College of Electronic Information Engineering,Shandong University of Science & Technology,Qingdao 266590,China)

Abstract:The correct prediction of gas emission has great practical significance for the safety production of coal mine. However, the law of gas emission in working face is complex, and there is multicollinearity among the influencing factors of gas emission volume, which seriously affects the accuracy of prediction. In order to study the relationship and characteristics between gas emission and its influencing factors, eliminate the multi-collinearity among these various factors, avoid “dimension disaster” and the over-fitting in the prediction of gas gushing volume, the least absolute shrinkage and selection operator(Lasso)penalized regression method was adopted for simulation prediction. On the basis of the original feature space, the Least Angle Regression(LARS)algorithm was used to achieve dimensionality reduction, eliminate irrelevant and redundant features, and finally screen out 6 high-influencing factors including coal seam depth, coal seam thickness, coal seam gas content, coal seam volatile yield, air capacity and coal seam spacing, etc.. The data set was then divided into ten parts by using the cross-validation method, and 9 of them were used as training data and one was used as test data in turn. Finally, the parameters of the test set with the highest recognition rate were selected to establish a prediction model to predict the coal mine field data. Finally, Lasso method was compared with traditional principal component analysis prediction model. The study results show that Lasso penalty regression model can better preserve the characteristic meaning of the original data set. and the mean relative error is 6.52%, the mean relative change value is 0.006, and the root mean square error is 3.20, which are superior to the results of principal component analysis regression model, proving that Lasso model has better prediction accuracy and stronger generalization ability. It can provide a theoretical reference for downhole gas prevention and control, and has important reference significance for solving the problem of high-dimensional and small-sample data prediction in other engineering fields.

Key words:gas emission; feature selection; regression algorithm; prediction model;gas emission prediction

0 引 言

近年来,我国煤矿安全形势有所好转,安全事故起数和死亡人数逐年下降,但安全形势依然严峻,煤矿事故频发,重特大事故时有发生。据不完全统计,2013—2017年期间全国煤矿事故1 945起,死亡人数3 771人,其中瓦斯事故起数和死亡人数分别占11.21%和30.17%,成为仅次于顶板灾害事故的第二大安全事故种类,可见瓦斯仍是引发煤矿安全事故的主要因素之一。而瓦斯涌出量作为瓦斯防治与管理,矿井通风系统设计的重要基础数据,快速、精确的预测瓦斯涌出量是实现煤矿安全生产的重要前提。国内外众多学者对煤矿瓦斯涌出量的预测模型做了大量的研究。齐庆杰等[1]、陈存强[2]、马文伟等[3]分别采用分源预测法对矿井瓦斯涌出量进行了预测;曹朋等[4]将多元线性回归和BP神经网络模型进行组合,预测了矿井瓦斯涌出量;苗杰[5]、施式亮等[6]分别采用灰色系统相关理论对矿井瓦斯涌出量进行了研究;杨宏海[7]、杨明磊等[8]将SVM 回归与分源预测法相结合建立SVM 分源预测数学模型,对回采工作面的瓦斯涌出量进行了回归分析;胡坤等[9]利用正则化异常值隔离与回归方法(LOIRE),结合TLBO优化算法,建立了TLBO-LOIRE优化预测模型对相关影响因素进行计算分析并对煤矿回采工作面瓦斯涌出量进行了预测。但上述预测模型也存在着一定的缺陷,如:神经网络模型需要选择模型及参数,存在着收敛速度慢等缺点;灰色理论预测当原始数据序列波动大并且信息过于分散时,预测精度将会降低;聚类分析法中隶属度的确定受人为因素影响较大。且上述各种方法都不能很好地解决实际工作中普遍存在的变量之间多重共线性问题。消除变量共线性方法,常见的有主成分分析(Principal Component Analysis,PCA)、线 性 判 定 分 析(Linear Discriminant Analysis,LDA)等方法。虽然它们具有较好的降维效果,但由于其改变了原始特征空间的结构,得到的新特征意义不明,不容易理解。针对以上现状,提出了一种基于Lasso算法的特征选择方法,在原始特征空间的基础上,通过剔除无关和冗余的特征选择出一个最优特征子集,原始数据集的特征意义没有改变,且具有更好的可读性。利用从数据角度筛选出的瓦斯涌出量影响因素的主要特征来建立预测模型,从而能够准确地追踪回采面瓦斯涌出量的变化规律。

1 LASSO算法原理

最小绝对值压缩选择模型(Least Absolute Shrinkage and Selection Operator,LASSO)是一种带有惩罚的正则化稀疏模型,最早由统计学家TIBSHIRANI于1996年提出[10]。为了给LASSO方法提供有效的算法支撑,BRADLEY等[11-12]提出了最小角回归(Least Angle Regression,LARS)算法。ZOU等[13]提出了Elastic Net方法,该方法在LARS的基础上加入二范数约束条件,解决了高维小样本数据的过拟合问题。施万锋等[14]提出一种均分式Lasso方法,通过将特征集分组选择然后合并的方法,解决了LASSO算法在计算高维数据时的内存开销问题,使得LASSO算法在分布式计算框架中的应用成为可能。

LASSO回归的基本思想是将回归系数的绝对值之和约束在一个常数条件下,使得残差平方和最小,从而使得某些自变量的回归系数自动压缩到零,即在传统线性回归方法最小平方估计的基础上增加了绝对值形式的惩罚项,达到变量选择的目的,得到可解释的模型[15-17]

对于多元线性回归模型:

y=β0+β1x1+β2x2+…+βpxp+ε

(1)

其中,y为因变量;xi(i=1,2,…,p)为自变量;βi(i=1,2,…,p)为未知参数;ε为随机误差项。

LASSO方法的系数估计为

(2)

其中,为惩罚项;yiy的数据集;为对系数估计的数据集;λ为非负正则参数,是控制各变量的压缩程度的调节系数,通过λ的变化调节变量的选择,使不重要的变量系数压缩为0。

2 矿井瓦斯涌出量预测模型的建立

影响瓦斯涌出量的因素众多,根据大量研究成果,笔者选取回采工作面测量的10个因素为主要影响因素,包括煤层埋藏深度(X1)、渗透率(X2)、煤层厚度(X3)、煤层瓦斯含量(X4)、CH4浓度(X5)、风量(X6)、日产量(X7)、煤层间距(X8)、煤层挥发分产率(X9)、邻近层瓦斯含量(X10)[1-9,18-20]

由于影响煤层瓦斯涌出量各因素之间可能存在多重共线性,如直接将所有因素作为输入代入模型进行多元回归,一方面容易降低预测精度,另一方面由于其高维特性,会造成计算效率下降。因此,采用Lasso对影响因素进行降维处理后,作为模型的输入序列;并以瓦斯涌出量y为模型的输出序列,对煤矿样本数据进行训练,从而达到动态预测瓦斯涌出量的目的。基于Lasso预测模型流程如图1所示。

图1 LASSO回归算法的建模过程
Fig.1 Flow of LASSO regression algorithm modeling

瓦斯涌出量动态预测模型训练过程如下:

1)提取煤矿瓦斯涌出量影响因素原始数据,X=[X1,X2,…,X10]T,为消除不同指标量纲的影响,需要将观测数据标准化、正规化,即:

(3)

2)采用机器学习常用的相关性热图方法,将属性之间的线性相关性可视化,并判断各属性之间的共线性,如存在,则利用Lasso进行降维处理,反之则直接进行多元回归分析。

3)若属性之间存在多重共线性,通过Lasso方法计算后,当影响因素对应的参数回归结果为“0”时,该特征被舍弃;若非“0”则将该特征列入候选特征集合。从而得到稀疏解,达到降维的目的。

4)得到低冗余特征子集后,利用特征子集进行训练,创建模型族,即不同的λ 值的拟合系数。

5)生成最优预测模型:选用十折交叉验证的方法(10-fold Cross Validation)确定参数,具体步骤如下:①将训练集合的顺序随机扰乱;②将扰乱后的训练集合等分为10份;③从参数集合中的第1个参数开始,每次不重复地选择一个参数;④从第1份开始,每次取出一份作为测试集,其余的作为训练集;⑤使用训练集和选择的参数进行模型训练;⑥用训练好的模型对测试集进行预测;⑦对 n 次的预测结果计算平均识别率;⑧选择取得最高识别率的测试集参数。

6)根据最优参数建立多元回归方程,进行瓦斯涌出量预测。

3 模型应用与分析

3.1 回采工作面瓦斯涌出影响因素的选取

将收集到的淮北某矿回采工作面瓦斯涌出量及各影响因素形成样本集,样本数据见表1。其中,前57组回采工作面数据作为样本训练集,后5组数据作为预测样本,用于检验所建模型的预测效果。

表1 回采工作面瓦斯涌出量和影响因素数据集

Table 1 Data collection of gas emission and its affecting factors in working face

序号X1/mX2/(m·d-1)X3/mX4/(m3·t-1)X5/%X6/(m3·min-1)X7/tX8/mX9/%X10/(m3·t-1)y/(m3·t-1)12284.101.94.990.22589.078610324.11.3822196.102.56.010.20360.07869305.271.3232304.901.55.270.20405.04219305.112.7742357.201.24.100.20417.11 43610313.131.8452266.101.12.960.20447.21 5178381.090.8562177.603.33.700.20477.01 64410383.671.8172387.911.92.010.20480.01 61610382.740.8682308.111.83.110.20462.01 69410383.510.79

续表

序号X1/mX2/(m·d-1)X3/mX4/(m3·t-1)X5/%X6/(m3·min-1)X7/tX8/mX9/%X10/(m3·t-1)y/(m3·t-1)92407.121.92.140.20462.01 6617392.071.52102459.101.93.250.20480.01 6618382.171.83112426.992.02.910.20540.01 5537383.061.00122576.721.12.160.20720.01 5707393.721.32︙︙︙︙︙︙︙︙︙︙︙︙584993.175.75.920.44760.06524316.1933.05595104.012.98.940.4798.05694318.1637.06605230.119.613.800.681 216.826632812.0760.82615110.129.615.100.71 066.026633014.6956.41625001.109.68.910.681 264.85044299.0735.40

3.2 瓦斯涌出量影响因素相关性分析

相关性图是一种表示2个变量之间相关关系的热图,是广泛使用的数据可视化方法之一。采用相关性热图对瓦斯涌出量影响因素数据进行更直观的展示,如图2所示。计算每组影响因素之间的相关性,每个格子的颜色代表行与列的相关性,颜色越红代表相关性越强,越蓝代表相关性越弱。由图中可以看出,影响瓦斯涌出量部分属性之间有很强的相关性,适用于Lasso算法进行特征筛选。

图2 瓦斯涌出量各影响因素的相关性热图
Fig.2 Data correlation heatmap of affecting factors

3.3 基于Lasso算法的高影响因素筛选

使用Python语言编程进行机器计算,运用Lasso方法对选取的9个属性进行参数估计与变量选择,用LARS算法实现计算。采用十折交叉验证方法进行模型选取,同时获得模型的性能最优估计。通过交叉验证计算不同alpha取值下的均方误差(MSE),获得最优估计,结果如图3所示。

图3 alpha和均方误差图
Fig.3 Figure of alpha and mean square error

图3中横向虚线表示每个惩罚系数alpha对应的目标均方误差,横向实线表示在十折交叉验证过程中均方误差的平均曲线。纵向虚线表示在所有的alpha值中最优解,即当alpha取值为0.012 17时,获得模型的性能最优估计。图4表示瓦斯涌出量在Lasso回归中系数随参数的变化情况,由图4可知,当参数alpha很小时,变量均未被选入模型中,随着alpha的不断增大,变量依次进入模型,当alpha到达一定值时,变量全部进入模型。同时,随着alpha取值的逐渐增大,压缩程度增大,所选入模型的变量个数越少。

图4 瓦斯涌出量在LASSO回归中系数随参数的变化
Fig.4 Regression coefficient with alpha in LASSO

因此,应当选取合适的参数值以做出权衡。当alpha取值为10-2左右时,从最初的10个影响因素中挖掘出6个高影响因素,剔除掉4个低影响因素,在一定程度上简化了指标体系结构。与此同时,当alpha取值0.012 17时模型的预测均方误差控制在0.5以下,能够兼顾预测精度与因素筛选。

运用LASSO变量筛选,最终选出了煤层埋藏深度、煤层厚度、煤层瓦斯含量、煤层挥发分产率、风量和煤层间距6个因素对瓦斯涌出量影响最大,系数结果见表2。其中影响最大的是煤层瓦斯含量和煤层埋藏深度,并具有显著的正向作用;煤层厚度和煤层间距显著度不如煤层挥发分产率和风量;渗透率、CH4浓度、日产量和邻近层瓦斯含量数据对瓦斯涌出量的影响不显著,没有被选入模型。以LASSO算法筛选出的高影响因素为基础,结合得到的回归系数,对瓦斯涌出量进行预测。

表2 基于LASSO算法进行属性选择的系数结果

Table 2 Screen results of each factor by the LASSO algorithm

影响因素系数影响因素系数X45.744 898X8-0.858 979X15.089 977X20X9-2.593 100X50X62.584 184X70X31.072 895X100

3.4 预测结果分析对比

为更好地验证预测效果,将LASSO预测结果与主成分分析预测结果进行对比,2种模型预测结果的相对误差见表3,与实测值对比如图6所示。由图6可知,运用LASSO预测模型的最大相对误差为9.2%,最小相对误差为2.5%,平均相对误差为6.5%。根据主成分选取原则,选取前4个成分(贡献率91.378%>85%),进行回归预测的最大相对误差为24.7%,最小相对误差为10%,平均相对误差为14.4%,远低于LASSO预测的精度。

表3 基于LASSO和主成分分析的瓦斯涌出量预测值比较
Table 3 Comparison of predictod gas emission based on LASSO and principal component,regression

样本序号瓦斯涌出量实测值LASSO预测值主成分回归预测值5833.0531.5728.765937.0636.1527.916060.8255.2353.476156.4158.2251.826235.4033.7031.62

图5 基于LASSO和主成分分析的瓦斯涌出量预测结果
Fig.5 Prediction of gas emission based on LASSO and principal component regression

同时,引入平均相对变动值(Average Relative Variance,ARV)、均方根误差(Root Mean Square Error,RMSE)作为误差评判标准,综合评价模型的预测精度和泛化能力。ARV值越小,预测模型泛化能力越强;RMSE值越小,预测模型的精度也越高。2种不同预测模型效果综合对比见表4。

表4 2种预测模型综合效果对比

Table 4 Results comparison of two prediction models

预测效果LASSO主成分分析MRE/%6.5214.4ARV0.0060.012RMSE3.204.89

结果显示基于LASSO多元回归模型预测精度更高,而且具有一定的泛化性。主成分分析的降维技术改变了数据的原始特征空间结构,得到的新的特征意义不够明确,主成分中存在着噪声和虚假分量,降低了特征的准确性和代表性,从而影响了预测结果。而LASSO模型通过剔除无关和冗余的特征选择出的最优特征子集,特征意义没有改变,具有更好的可读性,从整体上提高了预测结果的准确性。

4 结 论

1)LASSO回归模型采用LARS算法对影响瓦斯涌出量的高维数据进行了降维处理,CH4浓度、日产量和邻近层瓦斯含量对瓦斯涌出量的影响不显著。

2)经与主成分分析法对比,LASSO特征筛选方法在信息筛选方面优于主成分分析法,预测精度更高,泛化能力更强,为回采工作面瓦斯涌出预测模型的选择提供了一种新的依据。

3)由于LASSO回归模型和主成分分析法均属于线性模型,未充分考虑特征中的非线性因素,采用非线性化的方法对模型进行改进,将是下一步研究的重点方向。

参考文献(References):

[1] 齐庆杰,夏世羽.基于分源预测法的瓦斯涌出量预测共享平台的构建[J].矿业安全与环保,2018,45(2):59-64.

QI Qingjie,XIA Shiyu. Construction of gas emission forecasting sharing platform based on sub-source prediction method[J]. Mining Safety and Environmental Protection,2018,45(2):59-64.

[2] 陈存强.基于分源预测法对白龙山煤矿一井矿井瓦斯涌出量的研究[J].能源环境保护,2015,29(5):38-40.

CHEN Cunqiang,Study on gas emission in one well of bailongshan coal mine based on sub-source prediction method[J]. Energy Conservation,2015,29(5):38-40.

[3] 马文伟,付 巍,薛彦平,等.近距离煤层群开采工作面瓦斯涌出量预测方法研究[J].煤炭科学技术,2021,49(7):104-109.

MA Wenwei,FU Wei,XUE Yanping.Study on prediction method of gas emission rate in mining faces of contiguous seams[J].Coal Science and Technology,2021,49(7):104-109.

[4] 曹 朋,郝蒙蒙,王佳佳.基于多元线性回归与BP神经网络的矿井瓦斯预测模型应用[J].煤炭技术,2011,30(11):91-93.

CAO Peng,HAO Mengmeng,WANG Jiajia. Application of mine gas prediction model based on multiple linear regression and BP neural network[J]. Coal Technology,2011,30(11):91-93.

[5] 苗 杰.利用灰色预测法预测工作面瓦斯涌出量[J].能源与节能,2015(6):173-174.

MIAO Jie. Prediction of gas emission from working face by grey prediction method[J]. Energy and Energy Conservation,2015(6):173-174.

[6] 施式亮,伍爱友. GM(1,1)模型与线性回归组合方法在矿井瓦斯涌出量预测中的应用[J].煤炭学报,2008,34(4):415-418.

SHI Shiliang,WU Aiyou. Application of GM(1,1)model and linear regression combination method in prediction of mine gas emission [J]. Journal of China Coal Society,2008,34(4):415-418.

[7] 杨宏海.基于SVM的矿井瓦斯预警系统因素研究[J].山东煤炭科技,2018(10):205-207.

YANG Honghai. Research on factors of mine gas warning system based on SVM [J]. Shandong Coal Technology,2018(10):205-207.

[8] 杨明磊,戚旭鹏,张春华,等.基于支持向量机回归与分源预测法的瓦斯涌出量预测模型及其应用[J].世界科技研究与发展,2015,37(5):485-489.

YANG Minglei,QI Xupeng,ZHANG Chunhua,et al. Gas emission prediction model based on support vector machine regression and source prediction method and its application[J]. World Science and Technology Research and Development,2015,37(5):485-489.

[9] 胡 坤,王素珍,韩 盛,等.基于TLBO-LOIRE的回采工作面瓦斯涌出量预测[J].应用基础与工程科学学报,2017,25(5):1048-1056.

HU Kun,WANG Suzhen,HAN Sheng,et al. Prediction of gas emission in mining face based on TLBO-LOIRE[J]. Journal of Basic Science and Engineering,2017,25(5):1048-1056.

[10] TIBSHIRANI R J. Regression shrinkage and selection via the LASSO

[J]. Journal of the Royal Statistical Society,1996(58):267-288.

[11] EFRON B. Least angle re-gression[J]. Journal of Mathematical Statistics,2004,32(2),407-499.

[12] 刘 鹏,魏卉子,景江波,等. 基于增强CART回归算法的煤矿瓦斯涌出量预测技术[J]. 煤炭科学技术, 2019, 47(11):116-122.

LIU Peng, WEI Huizi, JING Jiangbo,et al. Predicting technology of gas emission quantity in coal mine based on enhanced CART regression algorithm[J]. Coal Science and Technology, 2019,47(11):116-122.

[13] ZOU H,TREVOR H. Regularization and variable selection via the elastic net[J]. Journal of the Royal Statistical Society,2005,67(2):301-320.

[14] 施万锋,胡学钢,俞 奎.一种面向高维数据的均分式Lasso特征选择方法[J].计算机工程与应用,2012,48(1):157-161.

SHI Wanfeng,HU Xuegang,YU kui. A mean split Lasso feature selection method for high dimensional data [J]. Computer Engineering and Applications,2012,48(1):157-161.

[15] SAMRACHANA Adhikari,FABRIZIO Lecci,JAMES T,et al. High-

dimensional longitudinal classification with the multinomial fused lasso[J]. Statistics in Medicine,2019,38(12):31-40.

[16] 刘彦青.动态回采工作面煤壁瓦斯涌出数值计算及现场应用[J].煤炭科学技术,2021,49(6):195-204.

LIU Yanqing.Numerical calculation and field application of gas emission from coal wall in dynamic mining face[J].Coal Science and Technology,2021,49(6):195-204.

[17] 赵 灿,张 浪,刘彦青.偏Y型通风下采空区瓦斯涌出规律及超限治理研究[J].煤炭科学技术,2019,47(4):127-133.

ZHAO Can,ZHANG Lang,LIU Yanqing.Study on gob gas emission laws and control of gas exceeding limit under Inclined Type Y-Ventilation[J].Coal Science and Technology,2019,47(4):127-133.

[18] 刘元嘉,娄 芳.博孜墩西井工作面绝对瓦斯涌出量规律分析[J].能源与环保,2019,41(2):19-22.

LIU Yuanjia,LOU Fang. Analysis of the law of absolute gas emission in the working face of Bojingdun[J]. China Energy and Environment Protection,2019,41(2):19-22.

[19] 陈 强,王海峰,万波俊,等.基于CSABC-ELM的采煤工作面瓦斯涌出量预测[J].工业安全与环保,2019,45(1):43-46,102.

CHEN Qiang,WANG Haifeng,WAN Bojun,et al. Prediction of gas emission in coal face based on CSABC-ELM[J]. Industrial Safety and Environmental Protection,2019,45(1):43-46,102.

[20] 代 巍,付 华,冀常鹏,等.回采工作面瓦斯涌出量VMD-DE-RVM区间预测方法[J].中国安全科学学报,2018,28(9):109-115.

DAI Wei,FU Hua,JI Changpeng,et al. VMD-DE-RVM interval prediction method for gas emission from mining face [J]. China Safety Science Journal,2018,28(9):109-115.