SC-XGBoost based soft measurement method for coal low heat value in power station
-
摘要:
随着国家大力推进能源供给侧结构性改革,新能源装机容量不断提升,电力市场竞争愈加激烈。另一方面,全球煤炭市场的复杂多变,导致以煤炭为能量来源的发电企业成本上涨。燃煤发热量是衡量煤质的重要评价标准之一,也是采购煤炭最重要的依据,对燃煤发热量进行准确预测能够有效地控制电厂运行采购成本。为了实现燃煤发热量的高效预测,采用Pearson系数对相关变量进行特征选取,采用基于密度的噪点空间聚类(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)算法对某电厂自备煤厂近2年1 733条化验数据进行去噪,对去噪后数据进行谱聚类(Spectral Clustering, SC)分析。将分类后的子样本集采用极致梯度提升(Extreme Gradient Boosting, XGBoost)算法分别建立预测模型,并与最小二乘法回归(Ordinary Least Squares, OLS)、支持向量机(Support Vector Machines, SVM)模型进行性能比较。结果表明,基于XGBoost的电站燃煤发热量预测模型相较于其他算法准确性有明显提升,泛化能力更强。对经过SC算法分类后的燃煤分别建立预测模型能够进一步提高模型的精细化水平,为燃煤电站发热量预测提供一种可靠高效的方法。
-
关键词:
- 低位发热量 /
- 机器学习 /
- 谱聚类 /
- 极致梯度提升(XGBoost) /
- 软测量
Abstract:With the country vigorously promoting structural reform on the supply side of energy, the installed capacity of new energy sources has been rising and competition in the power market has become increasingly fierce. On the other hand, the complexity and volatility of the global coal market has led to a rise in the cost of power generation enterprises using coal as their energy source. Coal heat value is one of the most important evaluation criteria for coal quality and is also the most important basis for coal procurement. Accurate prediction of coal heat value can effectively control power plant operation and procurement costs. In order to achieve efficient prediction of the heat value of coal, the Pearson coefficients were used to select the characteristics of the variables of interest, the DBSCAN algorithm was used to de-noise
1733 assay data of a power plant's own coal plant in the past two years, and spectral clustering (SC) analysis was performed on the de-noised data. The classified subsample sets were then used to build prediction models using the extreme gradient boosting (XGBoost) algorithm and compared with Ordinary Least Squares (OLS) and support vector machines (SVM) models. The performance of the models was compared with that of OLS and SVM. The results show that the accuracy of the XGBoost-based coal-fired heat value prediction model for power stations is significantly better than that of the other algorithms, and the generalization ability is stronger. The prediction model can further improve the refinement level of the model and provide a reliable and efficient method for coal-fired power station heat value prediction. -
0. 引 言
随着“双碳”目标的提出,新能源装机比例大幅提高,电力市场竞争愈加激烈,国际煤价的大幅上涨导致的成本增加进一步挤压了火力发电行业的生存空间[1]。由于新能源出力的不稳定性和我国资源禀赋的限制,以煤炭为能量来源的火力电站在短时间内仍然是电力生产的主力[2]。因此,致力于降低燃煤电厂运行成本的研究仍有重要的现实意义。
燃料成本占电厂运行成本的70%以上[3],在煤炭采购过程中,收到基低位发热量是一种最常用的参考指标,其数值大小直接影响结算价格的高低[4-5],且对电站运行效率和安全性有重要意义[6-8]。根据GB/T 213—2008《煤的发热量测定方法》中规定[9],电站在测定燃煤低位发热量时需要进行大量工作,费时费力,需对单个煤样进行5次重复试验以确保测量的准确性。而在实际生产中,每天有十余例甚至几十例煤样被送入实验室等待检测,煤场实验室的设备和人员配置无法满足需求,从而导致了发热量测定的滞后性。近年来随着机器学习技术的发展,越来越多的学者采用软测量方法对煤炭发热量进行预测,李光斌[10]通过多元线性回归模型研究,对神东煤田的约10万批次化验数据进行预测和检验,发现各矿井煤收到基低位发热量Qnet,ar与全水分Mt、干燥基灰分Ad之间有较高的多元线性相关性,得到了拟合度较高的线性相关关系式。宋宜猛[11]采用粒子群优化(Particle Swarm Optimization, PSO)算法优化支持向量机(SVM)超参数,以水分(Mad)、灰分(Ad)和挥发分(Vdaf)作为模型的输入量,煤质发热量(Qgr,d)作为目标输出量,建立了PSO-SVM预测模型,并证明工业分析与煤质发热量之间存在复杂非线性关系。
本文采用皮尔逊系数分析特征变量与目标变量间的相关性,以此为依据选取特征变量,再通过基于密度的带噪声应用程序空间聚类(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)算法对山东省威海市某电站近2年来煤数据进行去噪。为了解决由于煤种的多样性导致模型精确度不足的问题,将去噪后的数据利用SC算法进行分类,再采用预测效果更优的XGBoost回归预测算法,对分类后的子样本分别建立软测量模型。经过上述方法建立的模型有更好的预测效果,给燃煤电站的燃料采购和运行指导提供了帮助。
1. 相关理论
1.1 谱聚类
谱聚类(Spectral Clustering, SC)算法是一种从图论中演化出来的聚类算法[12],将给定数据视为图中的点,通过权值的概念量化变量之间的相似性,相似性越高则连线权重值越大,变量之间的距离也就越近。对所有数据点组成的图进行切图,让切图后不同的子图间连线权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的[13-14]。
SC算法相比于传统的K-Means聚类对数据的适应性更强,聚类效果更理想,且实现简单,得到了广泛的应用[15]。图1展示了谱聚类算法中无向图的构成以及切图原理。
在无向图G中,vi为第i个样本点,将点之间用直线相连,连接的两点权重值为ωij。无向图G可用点的集合V={v1, v2, ···, vn}和样本点之间连线权重值集合W来表示,其数学描述如式(1)所示。
$$ {\boldsymbol{G}} = \left( {{\boldsymbol{V}},{\boldsymbol{W}}} \right) $$ (1) 点集合中任意两点可以有连接,也可以没有连接,将点之间相似度定义为其连线权重值,相似性按照高斯相似度进行计算,如式(2)所示,连接的两点权重值wij>0,未连接的两点权重值wij=0,对应构成的权重值集合如式(3)所示。
$$ {w_{{{ij}}}} = {{\text{e}}^{\tfrac{{ - {{\left\| {{v_{{i}}} - {v_{{j}}}} \right\|}^2}}}{{2{\sigma ^2}}}}} $$ (2) $$ {\boldsymbol{W}} = \left\{ {{w_{{{ij}}}}\mid 1 \leqslant i \leqslant N,1 \leqslant j \leqslant N} \right\} $$ (3) 式中:σ为函数的宽度参数。
为了使某个点不会更容易被剔除,引入一个对角矩阵,对角线上元素为式(3)相似度矩阵一行(列)全部元素的和,即:
$$ {d_{\mathrm{i}}} = \sum\limits_{j = 1}^n {{w_{{{ij}}}}} $$ (4) $$ {\boldsymbol{D}} = \left( {\begin{array}{*{20}{l}} {{d_1}}&{}&{}&{} \\ {}&{{d_2}}&{}&{} \\ {}&{}& \ddots &{} \\ {}&{}&{}&{{d_n}} \end{array}} \right) $$ (5) 式中:D为引入的对角矩阵;di为对角矩阵D第i行元素值。
依据式(3)和式(5)构建拉普拉斯矩阵L,并对其进行标准化,表达式如下:
$$ {\boldsymbol{L}} = {\boldsymbol{D}} - {\boldsymbol{W}} $$ (6) $$ {{\boldsymbol{L}}_{{\text{norm}}}} = {{\boldsymbol{D}}^{ - \frac{1}{2}}}{\boldsymbol{L}}{{\boldsymbol{D}}^{ - \frac{1}{2}}} $$ (7) 式中:Lnorm为标准化后的拉普拉斯矩阵。
求Lnorm的前k个最小特征值并确定对应特征向量f,特征向量按列排布,形成n×p维的特征矩阵,将特征矩阵中列向量作为样本集,依据给定聚类簇数,采用K-Means算法进行聚类,最终得到簇划分结果。
1.2 XGBoost预测模型
XGBoost是CHEN等[16]提出的一种以梯度提升决策树(Gradient Boosting Decision Tree, GBDT)为理论基础,对Boosting算法进行改进的优化算法。它以某种策略集成若干个弱分类器,组合成为一个强分类器[17]。XGBoost算法通过不断迭代,生成一棵新树拟合前一棵树的残差,随着迭代次数的增多,精度不断提高[18]。因此XGBoost算法能够在避免过拟合的前提下,对目标函数进行更好地拟合,从而降低预测误差,取得较高的预测精度。XGBoost模型如下:
$$ {\hat y_{{i}}} = \displaystyle\sum\limits_{k = 1}^K {f_{{k}}}\left( {{x_{{i}}}} \right),{f_{{k}}} \in {\boldsymbol{F}} $$ (8) 式中:xi为第i个输入样本;$ {\hat y_{{i}}} $为第i个输入样本预测值;fk为第k棵树;K为树的总个数;F为所有树模型的集合。
XGBoost算法需进行迭代,新生成一棵树之后需要拟合上一棵树的残差,迭代过程如下:
$$ \left\{\begin{array}{l} \hat{y}_{{{{i}}}}^{(0)}=0 \\ \hat{y}_{{{{i}}}}^{(\boldsymbol{l})}=\hat{y}_{{{{i}}}}^{(0)}+f_{1}\left(x_{{{i}}}\right) \\ \qquad \vdots \\ \qquad \vdots \\ \hat{y}_{{{{i}}}}^{(t)}=\hat{y}_{{i}}^{(t-1)}+f_{{{t}}}\left(x_{{{i}}}\right) \end{array}\right. $$ (9) 式中:t为迭代次数。
XGBoost的优化目标函数由损失函数项和正则化项组合而成,目标函数和正则化项表达式如下:
$$ R = \mathop \sum \limits_{i = 1}^n {\rm{loss}}({y_{{i}}},{\hat y_{{i}}}) + \mathop \sum \limits_{k = 1}^K {{\varOmega }}({f_{{k}}}) $$ (10) $$ \Omega\left(f_{{{k}}}\right)=\gamma T+\frac{1}{2} \lambda \sum_{j=1}^{T} \omega_{{{j}}}^{2} $$ (11) 式中:R为目标函数;$ \displaystyle\sum \limits_{i = 1}^n {\rm{loss}}({y_{{i}}},{\hat y_{{i}}}) $为目标函数的损失函数项;Ω(fk)为目标函数的正则化项;T为叶子节点个数;γ 和λ 为正则项系数;ωj为叶子节点权重向量的L2范数。
对目标函数进行泰勒展开,得到目标函数关于叶子结点权重值的式(12):
$$ \begin{array}{c} {R^{^{(t)}}} = \displaystyle\sum\limits_{i = 1}^K {\left[ {{g_{{i}}}{f_{{t}}}\left( {{x_{{i}}}} \right) + \frac{1}{2}{h_{{i}}}{f_{{t}}}{{\left( {{x_{{i}}}} \right)}^2}} \right]} + \gamma T + \frac{1}{2}\lambda \displaystyle\sum\limits_{j = 1}^T {\omega _{{j}}^2}= \\ \displaystyle\sum\limits_{j = 1}^T {\left[ {\left( {\displaystyle\sum\limits_{i \in {I_{{j}}}} {{g_{{i}}}} } \right){\omega _{{j}}} + \frac{1}{2}\left( {\displaystyle\sum\limits_{i \in {I_{{j}}}} {{h_{{i}}}} + \lambda } \right)\omega _{{j}}^2} \right]} + \gamma T \\ \end{array} $$ (12) 式中:gi为目标函数泰勒展开的一次项系数;hi为目标函数泰勒展开的二次项系数;Ij为叶子j的实例集。
将全部样本对应的一次项系数和二次项系数分别求和,记为Gj和Hj,对ωj求偏导,令偏导值为0,求解得最优化的叶子结点值,由此获得最优化目标函数,从而构造出最优化的回归预测模型。最优叶子节点值和最优预测目标函数如式(13)和式(14)所示。
$$ \omega_{{{j}}}^{*}=-\frac{G_{{{j}}}}{H_{{{j}}}+\lambda} $$ (13) $$ R^{*}=-\frac{1}{2} \sum_{j=1}^{T} \frac{G_{{{j}}}^{2}}{H_{{{j}}}+\lambda}+\gamma T $$ (14) 2. 数据分析及预处理
2.1 数据概况
本文以山东威海某燃煤电站自备煤场为研究对象,该电站将每批来煤化验数据存储在服务器中,利用Python软件连接SQL Server将数据读取还原并进行数据建模工作。读取数据库中“化验管理”数据表,按照时间排序提取近2年全部1 733条化验数据,包括煤批批号、收到基低位发热量、收到基水分、收到基挥发分、收到基灰分等测点数据。
在煤炭的加工和利用过程中,工业分析是实现质量评价的最基础的工序[19],也是了解煤质特性的主要指标。煤炭的工业分析是指对煤加热使之维持在不同的温度,110 ℃时析出的物质为水分,隔绝空气条件下加热至850 ℃时析出物质为挥发分,通入空气后充分燃烧的剩余物为灰分,固定碳含量由差值法求出[20]。通常,生产中采用工业分析和元素分析来对煤质情况进行评价,其中煤的工业分析数据较易被测定,仅需马弗炉及质量天平等简单仪器即可进行,工业分析数据的测定具有反应及时、实时性强的特点[21],但元素分析需要更多专业仪器及更高水平的实验员,成本较高且费时费力[22]。多数燃煤电站的实验室不进行或只进行部分元素含量检测工作。故选取工业分析数据为输入变量,收到基低位发热量为输出变量。发热量及煤的工业分析构成的数据集分布情况见表1。
表 1 数据集分布情况Table 1. Distribution of the dataset参数 最小值 最大值 平均值 收到基低位发热量Qnet,ar/(MJ·kg-1) 17.27 25.48 21.24 收到基水分Mar/% 4.4 15.61 9.39 收到基灰分Aar/% 7.21 35.47 24.57 收到基挥发分Var/% 8.12 31.51 16.99 收到基固定碳FCar/% 36.15 59.96 49.10 2.2 变量选择
由于煤的工业分析数据总和为100%,因此部分特征变量可以由其他特征变量解释,同时为了提高聚类和预测模型的计算速度,需要筛选出对发热量影响不大的参数,对模型的输入变量进行简化。通过计算皮尔逊系数来衡量因变量与特征之间的相关程度,系数介于[−1,1]之间,系数绝对值越大表明其相关性越强,系数为正时表示变量正相关,为负时表示变量负相关[23],其计算式如式(15)所示,热力图如图2所示。
$$P=\dfrac{\displaystyle\sum_{i=1}^{n}\left(x_{{{i}}}-\bar{x}\right)\left(y_{{{i}}}-\bar{y}\right)}{\sqrt{\displaystyle\sum_{i=1}^{n}\left(x_{{{i}}}-\bar{x}\right)^{2}} \sqrt{\displaystyle\sum_{i=1}^{n}\left(y_{{{i}}}-\bar{y}\right)^{2}}} $$ (15) 式中:P为皮尔逊系数;xi, yi为第i个样本变量;$ \overline x $,$ \overline y $为变量的平均值;n为样本个数。
由图2可知,收到基水分Mar和收到基灰分Aar与低位发热量呈明显负相关、固定碳FCar与低位发热量呈强正相关、挥发分Var与发热量相关性不大,与文献[10],文献[21],文献[24-25]研究结果相吻合。故选取收到基水分Mar,收到基灰分Aar和固定碳FCar这3种与被解释变量低位发热量Qnet,ar有显著相关性的解释变量作为模型的输入变量。
2.3 数据预处理
在SC和XGBoost算法中,为了避免量纲对模型的不良影响,提高模型的收敛速度,往往用数据归一化方法对数据进行处理。数据归一化是将数据按比例缩放,针对一个数据维度中全部数据范围缩放至[0,1]的操作。本文采用最大最小值归一化算法,对数据进行归一化处理,用公式表示其原理如下:
$$ x^{\prime}=\dfrac{x-x_{\min }}{x_{\operatorname{max}}-x_{\min }} $$ (16) 式中:x′为归一化后数据;x为原始数据;xmax为数据最大值;xmin为数据最小值。
3. 算例分析
3.1 基于SC的模型构造
3.1.1 聚类模型评价指标
轮廓系数是最常用的评价簇间离散程度的指标之一,也是衡量聚类算法表现效果的常用指标[26],如式(17)—式(20)所示。
$$ a(i)=\frac{1}{\left|C_{i}\right|-1} \sum_{j \in C_{{\mathrm{i}}}, i\ne j} d(i, j) $$ (17) $$b(i)=\underset{k\ne i}{\mathop{\min }}\,\frac{1}{\left| {{C}_{k}} \right|}\sum\limits_{j\in {{C}_{k}}}{d}(i,j) $$ (18) $$ s(i)=\frac{b(i)-a(i)}{\max \{a(i), b(i)\}} $$ (19) $$ S=\frac{1}{n} \sum_{i\in C} s(i) $$ (20) 式中:d为样本点间距离;Ci为第i个簇;Ck为第k个簇;a(i)为样本点i到簇内其余各点的平均距离,称为内聚度;b(i)为样本点i到其他各簇内样本点平均距离的最小值,称为分离度;s(i)为样本点i的轮廓系数。全部样本点的轮廓系数的平均值即为整个模型的轮廓系数,记为S。
CH指数是所有样本集群间离散度总和与集群内离散度总和的比值,CH指数越大表示簇内紧密度越大,簇间分散度越大,即聚类结果更优。工作原理如式(21)—式(23)所示:
$$ {\rm{Co}}{{\rm{v}}_{\mathrm{B}}} = \sum\limits_i^c {{n_{{i}}}} \left( {{m_{{i}}} - {m_0}} \right){\left( {{m_{{i}}} - {m_0}} \right)^{\text{T}}} $$ (21) $$ {\rm{Co}}{{\rm{v}}_{\mathrm{w}}} = \sum\limits_{i = 1}^c {\sum\limits_{x \in {X_{\mathrm{i}}}} {\left( {x - {m_{{i}}}} \right)} } {\left( {x - {m_{{i}}}} \right)^{\text{T}}} $$ (22) $$ {\rm{CH}}(c) = \frac{{{Tr} \left( {{\rm{Co}}{{\rm{v}}_{\mathrm{B}}}} \right)}}{{{Tr} \left( {{\rm{Co}}{{\rm{v}}_{\mathrm{w}}}} \right)}} \times \frac{{N - c}}{{c - 1}} \quad\;\;$$ (23) 式中:${\rm{ Co}}{{\rm{v}}_{\mathrm{B}}} $计算的是组间协方差,称为组间色散矩阵(Between Group Dispersion Matrix);$ {\rm{Co}}{{\rm{v}}_{\mathrm{w}}} $计算的是组内协方差,称为群内色散矩阵(Within-cluster Dispersion Matrix)。$ {Tr} \left( {{\rm{Co}}{{\rm{v}}_{\mathrm{B}}}} \right) $、${Tr} \left( {{\rm{Co}}{{\rm{v}}_{\mathrm{w}}}} \right)$分别为组间色散矩阵和群内色散矩阵的秩;Xi为第i个聚簇;mi为第i个聚簇的中心点;m0为全部样本的中心点;ni为第i个聚簇内样本数;N为全部样本数;c为设定聚类数。
3.1.2 去除噪声点
由于燃煤化验过程及信息录入过程全部由人工操作,因此往往会产生不符合数据集总体情况的离群值。本文采用DBSCAN算法对数据集进行去噪。DBSCAN算法是一种基于密度的聚类算法[27],该算法的特点是通过设定合理的邻域半径Eps和密度阈值MinPts[28],对落在聚簇内的样本数据进行保留,其余落在聚簇外的数据点被认为是噪声点。
为了选取最合理的参数,通过迭代的方式进行参数寻优,对于邻域半径Eps,设定迭代范围为[0.001,3],步长为0.01,该循环内包含密度阈值的迭代,范围为[10,100],步长设定为5。计算每种迭代组合对应的轮廓系数并进行排序,最大的轮廓系数值对应的邻域半径Eps=2.961和密度阈值MinPts=45即为最优参数。经统计,离群点共有23个,约占数据集全部样本的1.33%,在可接受的范围内。噪声点分布如图3(棕色星号)所示。
3.1.3 SC模型构建
由于谱聚类是一种无监督的聚类算法,在进行聚类分析前需要确定合理的聚簇数,才能使得聚类效果更加理想。图4是不同聚簇数k对应的轮廓系数与CH指数值,由图4可以看出,当k=3时,轮廓系数和CH指数均达到最大值,由此判定最佳聚类数k为3。
调用Python中scikit-learn模块,将聚类数参数n_clusters设定为3,采用SC算法对去噪后数据进行建模。计算结束后通过Axes3D模块对聚类结果可视化输出,结果如图5所示,将红色、绿色和蓝色子样本集分别命名为A类、B类和C类,各类样本参数范围见表2。
表 2 各类样本参数范围Table 2. Range of parameters for each type of sample样本类别 收到基水分Mar/% 收到基灰分Aar/% 收到基固定碳FCar/% 样本个数 A 11.09~15.61 7.21~15.86 43.18~49.89 261 B 5.45~15.42 19.96~30.61 36.15~42.14 392 C 4.42~14.62 19.03~35.47 46.25~59.96 1057 3.2 基于XGBoost的模型构造
3.2.1 模型评价指标
常见的回归算法评估指标有平均绝对值误差(Mean Absolute Error,δMAE),均方根误差(Root Mean Squared Error,δRMSE),决定系数(Coefficient of Determination,R2)等。误差指标越小,代表预测值与真实值越接近,预测准确度更高;决定系数能够度量因变量变异中可由自变量解释部分所占的比例,以此来判断回归模型的解释力,决定系数越接近1,说明模型的解释力越强。公式如下:
$$ {\delta _{{\text{MSE}}}} = \frac{1}{n}\sum\limits_{i = 1}^n {{{\left( {{{\hat y}_{{i}}} - {y_{{i}}}} \right)}^2}} $$ (24) $$ {\delta _{{\text{MAPE }}}} = \frac{1}{n}\sum\limits_{i = 1}^n {\left| {\frac{{{{\hat y}_{{i}}} - {y_{{i}}}}}{{{y_{{i}}}}}} \right|} $$ (25) $$ {R^2} = 1 - \dfrac{{\displaystyle \sum \limits_{i = 1}^n {{\left( {{y_{{i}}} - {{\hat y}_{{i}}}} \right)}^2}}}{{\displaystyle \sum \limits_{i = 1}^n {{\left( {{y_{{i}}} - \bar y} \right)}^2}}} $$ (26) 式中: yi为第i个样本真实值;$ \bar y $为样本真实值平均值。
3.2.2 参数寻优
构建XGBoost预测模型前需初始化超参数,包括迭代次数n_estimator,学习率learning_rate,树最大深度max_depth,子节点最小样本权重min_child_weight和损失函数下降值gamma。由于需要寻优的参数较多,采用寻常的迭代方法运算次数会呈指数层级上升。Optuna是一种超参数优化框架,其算法结构简单、优化效率高且具有剪枝功能,能快速实现参数优化[29]。本部分以全部样本为例,以降低平均绝对值误差为目标,采用Optuna优化框架对预测模型进行超参数寻优。XGBoost调参结果见表3。
表 3 Optuna框架下最优化超参数Table 3. Optimal hyperparameters in the Optuna framework参数 全部
样本子样本
A子样本
B子样本
Cn_estimator 841 871 698 837 learning_rate 0.0349 0.0883 0.0767 0.0667 max_depth 6 5 5 4 min_child_weight 4 2 2 3 gamma 0.103 0.0313 0.0489 0.0449 4. 试验结果及对比分析
4.1 试验结果
采用谱聚类算法,实现了对电站燃煤的分类,采用Optuna框架优化得到的最优化超参数作为模型参数,对全部样本和分类后的子样本煤样低位发热量建立了XGBoost预测模型。本文调用Python中scikit-learn模块内的train_test_split函数对数据进行随机划分,以70%的样本作为训练集对预测模型进行训练,其余30%为测试集验证模型训练效果,从平均绝对值误差、均方根误差和决定系数几个指标来评价试验结果,具体结果见表4。从表4中可以看出,各子样本模型与全部样本模型相比,预测误差有明显降低,决定系数也有些许提升,说明通过谱聚类算法分类后的子样本模型的预测准确度更高,模型解释力更强。
表 4 XGBoost算法下全部样本模型与子样本模型训练效果评价Table 4. Evaluation of the training effect of the full sample and subsamples models under XGBoost algorithm训练对象 δMSE δMAPE/% R2 全部样本 0.077 4 1.04 0.974 子样本A 0.042 2 0.68 0.982 子样本B 0.041 5 0.65 0.976 子样本C 0.044 9 0.73 0.983 4.2 XGBoost-SVM-OLS算法对比
为了进一步证明XGBoost模型的预测效果,同时采用文献[10-11]中所述的OLS算法、SVM算法进行预测模型的构建,用于对比不同算法的预测效果。本部分试验采用与上小节预测模型相同的训练集测试集划分方法进行建模,评价结果见表5。取预测结果集前50个数据点进行对比分析,3种算法预测值与真实值对比如图6、所示,各算法的绝对误差对比图如图7所示。由图7可知,采用XGBoost和SVM等2种非线性算法相对OLS线性回归算法预测精度有明显提升,但在部分样本点中,通过SVM算法构建的模型预测值对真实值的变化趋势没有做到较好的跟随,而XGBoost算法在面对特殊样本点时误差可以明显减小(如样本点40~42)。
表 5 全部样本模型与子样本模型训练效果评价结果Table 5. Evaluation result of the training effect of the full sample and subsamples models训练对象 算法 δMSE δMAPE/% R2 全部样本 SVM 0.163 1 1.52 0.963 OLS 0.244 4 2.17 0.958 子样本A SVM 0.086 1 1.06 0.971 OLS 0.132 4 1.29 0.967 子样本B SVM 0.085 9 0.92 0.969 OLS 0.124 3 1.34 0.962 子样本C SVM 0.088 3 1.13 0.973 OLS 0.143 2 1.39 0.969 由表5可以看出,线性回归算法在发热量预测问题上表现效果最差,这是因为通过最小化残差平方和来拟合数据的OLS回归算法,对异常值更加敏感,且对存在非线性关系的数据适应性较差;非线性回归算法能够有效的提高预测精度,且其中XGBoost算法的预测效果更好,原因是使用决策树作为基分类器的XGBoost算法,结合了多个树模型的预测结果,通过取平均值或加权平均值的方法使得算法能够更好地处理输入变量与输出变量间的非线性关系。此外,通过不断迭代,使得每一步迭代的树模型都能够更好地拟合残差,从而提高了模型的准确性。
5. 结 论
1)以煤样化验数据为样本,通过计算变量间Pearson系数对工业分析特征进行选取,研究发现煤的低位发热量与收到基水分Mar和收到基灰分Aar呈负相关,与固定碳FCar呈正相关。挥发分Var与收到基低位发热量Qnet,ar的Pearson系数仅为0.1,挥发分Var的变化对发热量数值上影响不大。
2)采用谱聚类算法将近2年来煤化验样本分为3类,通过此方法可以实现将大样本量的预测模型细分成内部性质相似的子样本模型,对子样本进行分别预测能够使预测精确度有明显的提升,构建了一种泛化能力更强的预测方法。
3)通过对全部样本数据的建模和误差比较,发现相较于支持向量机SVM算法和最小二乘法回归OLS算法所建立的模型,采用极致梯度提升XGBoost算法的燃煤发热量软测量模型的精度更高,对特殊样本点的适应性更好,模型的解释能力更强。
-
表 1 数据集分布情况
Table 1 Distribution of the dataset
参数 最小值 最大值 平均值 收到基低位发热量Qnet,ar/(MJ·kg-1) 17.27 25.48 21.24 收到基水分Mar/% 4.4 15.61 9.39 收到基灰分Aar/% 7.21 35.47 24.57 收到基挥发分Var/% 8.12 31.51 16.99 收到基固定碳FCar/% 36.15 59.96 49.10 表 2 各类样本参数范围
Table 2 Range of parameters for each type of sample
样本类别 收到基水分Mar/% 收到基灰分Aar/% 收到基固定碳FCar/% 样本个数 A 11.09~15.61 7.21~15.86 43.18~49.89 261 B 5.45~15.42 19.96~30.61 36.15~42.14 392 C 4.42~14.62 19.03~35.47 46.25~59.96 1057 表 3 Optuna框架下最优化超参数
Table 3 Optimal hyperparameters in the Optuna framework
参数 全部
样本子样本
A子样本
B子样本
Cn_estimator 841 871 698 837 learning_rate 0.0349 0.0883 0.0767 0.0667 max_depth 6 5 5 4 min_child_weight 4 2 2 3 gamma 0.103 0.0313 0.0489 0.0449 表 4 XGBoost算法下全部样本模型与子样本模型训练效果评价
Table 4 Evaluation of the training effect of the full sample and subsamples models under XGBoost algorithm
训练对象 δMSE δMAPE/% R2 全部样本 0.077 4 1.04 0.974 子样本A 0.042 2 0.68 0.982 子样本B 0.041 5 0.65 0.976 子样本C 0.044 9 0.73 0.983 表 5 全部样本模型与子样本模型训练效果评价结果
Table 5 Evaluation result of the training effect of the full sample and subsamples models
训练对象 算法 δMSE δMAPE/% R2 全部样本 SVM 0.163 1 1.52 0.963 OLS 0.244 4 2.17 0.958 子样本A SVM 0.086 1 1.06 0.971 OLS 0.132 4 1.29 0.967 子样本B SVM 0.085 9 0.92 0.969 OLS 0.124 3 1.34 0.962 子样本C SVM 0.088 3 1.13 0.973 OLS 0.143 2 1.39 0.969 -
[1] 侯方圆. 碳中和背景下的火电企业精益成本管理研究[D]. 广州中山大学,2021. HOU Fangyuan. Research on lean cost management of thermal power enterprises under the background of carbon neutrality[D]. Guangzhou:Sun Yat-Sen University,2021.
[2] 何 则,周彦楠,刘 毅. 2050年中国能源消费结构的系统动力学模拟:基于重点行业的转型情景[J]. 自然资源学报,2020,35(11):2696−2707. doi: 10.31497/zrzyxb.20201111 HE Ze,ZHOU Hongnan,LIU Yi. System dynamics simulation on China's energy consumption in 2050:Based on the policy scenarios of key industries[J]. Journal of Natural Resources,2020,35(11):2696−2707. doi: 10.31497/zrzyxb.20201111
[3] 刘习文,彭卓寅,胡新强,等. 燃煤火电厂年度燃料成本最小化决策模型及应用[J]. 中国电力,2022,55(6):202−207. LIU Xiwen,PENG Zhuoyin,HU Xinqiang,et al. Annual fuel cost minimization decision model for thermal power plant and its applications[J]. Electric Power,2022,55(6):202−207.
[4] 成艳亭,宋立信,池 锋,等. 入炉煤质在线软测量技术研究与应用进展[J]. 洁净煤技术,2021,27(5):38−51. CHENG Yanting,SONG Lixin,CHI Feng,et al. Development and application of soft-measurement technology for online monitoring of coal quality in power generation[J]. Clean Coal Technology,2021,27(5):38−51.
[5] 韩立芳,赵中义. 基于极限学习机的燃煤热值预测研究[J]. 热力发电,2020,49(4):144−149. HAN Lifang,ZHAO Zhongyi. Study on calorific value prediction of coal combustion based on extreme learning machine[J]. Thermal Power Generation,2020,49(4):144−149.
[6] 李越胜,卢伟业,赵静波,等. 基于BP神经网络和激光诱导击穿光谱的燃煤热值快速测量方法研究[J]. 光谱学与光谱分析,2017,37(8):2575−2579. LI Yuesheng,LU Weiye,ZHAO Jingbo,et al. Detection of caloric value of coal using laser-induced breakdown spectroscopy combined with BP neural networks[J]. Spectroscopy and Spectral Analysis,2017,37(8):2575−2579.
[7] 杨明花,张克涵. 基于高光谱图像和卷积神经网络的燃煤热值估计算法[J]. 中国电力,2019,52(9):148−153. YANG Minghua,ZHANG Kehan. Coal calorific value estimation algorithm based on hyperspectral image and convolutional neural network[J]. Electric Power,2019,52(9):148−153.
[8] FU C,ANANTHARAMAN R,JORDAL K,et al. Thermal efficiency of coal-fired power plants:From theoretical to practical assessments[J]. Energy Conversion and Management,2015,105:530−544. doi: 10.1016/j.enconman.2015.08.019
[9] GB/T 213—2008,煤的发热量测定方法[S]. 北京:质检出版社,2008. [10] 李光斌. 基于历史数据分析的神东煤发热量数据检验研究[J]. 煤炭科学技术,2022,50(S1):333−338. LI Guangbin. Research on calorific value data inspection of Shendong coal based on historical data analysis[J]. Coal Science and Technology,2022,50(S1):333−338.
[11] 宋宜猛. 基于工业分析预测煤质发热量研究[J]. 西安科技大学学报,2022,42(1):70−75. SONG Yimeng. Research on prediction of coal calorific value based on proximate analysis[J]. Journal of Xi'an University of Science and Technology,2022,42(1):70−75.
[12] FARMER W J,RIX A J. Evaluating power system network inertia using spectral clustering to define local area stability[J]. International Journal of Electrical Power & Energy Systems,2022,134:107404.
[13] WANG Y,GAO S,CHU H,et al. Planning of electric taxi charging stations based on travel data characteristics[J]. Electronics,2021,10(16):1947. doi: 10.3390/electronics10161947
[14] LIU Hongli,CHEN Junchao,LI Ji,et al. Transformer fault warning based on spectral clustering and decision tree[J]. Electronics,2023,12(2):265. doi: 10.3390/electronics12020265
[15] 梅 睿,吕志勇,顾 文,等. 基于主成分分析和谱聚类的短期风功率预测[J]. 现代电力,2023,40(1):35−41. MEI Rui,LYU Zhiyong,GU Wen,et al. Short-term wind power prediction based on principal component analysis and spectral clustering[J]. Modern Electric Power,2023,40(1):35−41.
[16] CHEN T,GUESTRIN C. Xgboost:a scalable tree boosting system[C]//Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. New York,2016:785−794.
[17] ZHENG H,YUAN J,CHEN L. Short-term load forecasting using EMD-LSTM neural networks with a Xgboost algorithm for feature importance evaluation[J]. Energies,2017,10(8):1168. doi: 10.3390/en10081168
[18] 陈振宇,刘金波,李 晨,等. 基于LSTM与XGBoost组合模型的超短期电力负荷预测[J]. 电网技术,2020,44(2):614−620. CHEN Zhenyu,LIU Jinbo,LI Chen,et al. Ultra short-term power load forecasting based on combined LSTM-XGBoost model[J]. Power System Technology,2020,44(2):614−620.
[19] 孔德婷,刘聪云,马琳鸽,等. 煤的工业分析仪器法测量不确定度评定[J]. 计量与测试技术,2022,49(1):108−111,114. KONG Deting,LIU Congyun,MA Linge,et al. Evaluation of uncertainty on proximate analysis of coal of instrumental method[J]. Metrology & Measurement Technique,2022,49(1):108−111,114.
[20] 丁皓轩,吴震坤,唐 文,等. 煤炭工业分析转化元素分析计算式改进与回归模型[J]. 洁净煤技术,2021,27(S2):170−174. DING Haoxuan,WU Zhenkun,TANG Wen,et al. Calculation formula improvement and regression model for calculate ultimate analysis from proximate analysis of coal[J]. Clean Coal Technology,2021,27(S2):170−174.
[21] 王惠新,陈致远,王永红,等. 贵州煤发热量与工业分析指标预测模型[J]. 洁净煤技术,2020,26(S1):112−115. WANG Huixin,CHEN Zhiyuan,WANG Yonghong,et al. Prediction model of Guizhou coal calorific value and industrial analysis[J]. Clean Coal Technology,2020,26(S1):112−115.
[22] 刘福国,刘 科. 求解高斯过程方程组预测煤元素含量研究[J]. 热力发电,2021,50(7):70−77. LIU Fuguo,LIU Ke. Prediction of elemental composition of coal by solving Gaussian process equations[J]. Thermal Power Generation,2021,50(7):70−77.
[23] 刘 超,张爱琳,李树刚,等. 基于Pearson特征选择的LSTM工作面瓦斯浓度预测模型及应用[J/OL]. 煤炭科学技术:1-9. doi: 10.13199/j.cnki.cst.2022−1618. LIU Chao,ZHANG Ailin,LI Shugang,et al. LSTM-Pearson gas concentration prediction model feature selection and its application[J/OL]. Coal Science and Technology:1-9. doi: 10.13199/j.cnki.cst.2022−1618.
[24] 赵先枝,陈军林. 基于分位数回归的煤炭发热量预测[J]. 工矿自动化,2022,48(7):130−134. ZHAO Xianzhi,CHEN Junlin. Prediction method of coal calorific value based on quantile regression[J]. Journal of Mine Automation,2022,48(7):130−134.
[25] 李大虎,李秋科,王文才,等. 基于MIV特征选择与PSO-BP神经网络的煤炭发热量预测[J]. 煤炭工程,2020,52(11):154−160. LI Dahu,LI Qiuke,WANG Wencai,et al. Prediction of coal calorific value based on MIV characteristic variable selection and PSO-BP neural network[J]. Coal Engineering,2020,52(11):154−160.
[26] 安吉振,陈 衡,乔世超,等. 基于K-means聚类算法的电站煤场来煤堆放优化研究[J]. 热力发电,2023,52(4):135−143. AN Jizhen,CHEN Heng,QIAO Shichao,et al. Research on optimization of incoming coal stacking in power station coal yard based on K-means clustering algorithm[J]. Thermal Power Generation,2023,52(4):135−143.
[27] HU D,ZHOU K,LI F,et al. Electric vehicle user classification and value discovery based on charging big data[J]. Energy,2022,249:123698. doi: 10.1016/j.energy.2022.123698
[28] 万 佳,胡大裟,蒋玉明. 多密度自适应确定DBSCAN算法参数的算法研究[J]. 计算机工程与应用,2022,58(2):78−85. WAN Jia,HU Dasha,JIANG Yuming. Research on method of multi-density self-adaptive determination of DBSCAN algorithm parameters[J]. Computer Engineering and Applications,2022,58(2):78−85.
[29] 黄 宇,高 珊,李其贤,等. SCR脱硝系统的分数阶PIλDμ参数优化控制[J]. 动力工程学报,2022,42(2):122−128. HUANG Yu,GAO Shan,LI Qixian,et al. Optimal control of fractional PIλDμ parameters of SCR denitration system[J]. Journal of Chinese Society of Power Engineering,2022,42(2):122−128.