img

QQ群聊

img

官方微信

  • CN 62-1112/TF 
  • ISSN 1005-2518 
  • 创刊于1988年
高级检索

黄金科学技术, 2022, 30(3): 392-403 doi: 10.11872/j.issn.1005-2518.2022.03.145

采选技术与矿山管理

基于MICE_RF的组合赋权—极限随机树岩爆预测模型

温廷新,, 苏焕博,

辽宁工程技术大学工商管理学院,辽宁 葫芦岛 125105

Combined Weighting-Extremely Randomized Trees Rockburst Prediction Model Based on MICE_ RF

WEN Tingxin,, SU Huanbo,

School of Business Administration,Liaoning University of Engineering and Technology,Huludao 125105,Liaoning,China

通讯作者: 苏焕博(1997-),男,辽宁辽阳人,硕士研究生,从事矿业系统工程、数据分析与挖掘研究工作。260987894@qq.com

收稿日期: 2021-10-11   修回日期: 2021-12-19  

基金资助: 国家自然科学基金项目“基于数据挖掘的煤矿安全风险评价体系研究”.  71371091

Received: 2021-10-11   Revised: 2021-12-19  

作者简介 About authors

温廷新(1974-),男,山西太谷人,博士,教授,从事矿业系统工程、数据分析与智能决策研究工作wen_tx@163.com , E-mail:wen_tx@163.com

摘要

目前岩爆预测的真实训练数据量小、数据存在缺失,为了更加准确地预测岩爆等级,提出了一种基于链式随机森林多重插补(MICE_RF)算法的组合赋权—极限随机树(ET)预测模型。首先,在选取岩爆灾害主要评判指标的基础上,采用MICE_RF算法插补缺失数据;然后,由改进层次分析法(IAHP)和基于指标相关性的权重确定方法(CRITIC)确定指标主、客观权重,并引入权向量距离概念对指标组合赋权;最后,将插补和赋权后数据集采用ET算法,构建岩爆等级预测模型。利用国内外工程实例数据进行20次随机抽样试验,并与其他模型进行对比分析。结果表明:MICE_RF插补后可显著提高岩爆模型预测效果;改进AHP-CRITIC法较改进前更具优势,该模型平均预测准确率为93.10%,各比较指标结果均优于对比模型,预测结果更稳定。

关键词: 岩爆等级预测 ; 数据缺失 ; 链式随机森林的多重插补(MICE_RF)算法 ; 组合赋权 ; 权向量距离 ; 极限随机树(ET)算法

Abstract

As a kind of dynamic instability geological disaster with strong abruptness and randomness,rockburst poses a great threat to the safety of personnel,equipment and buildings.Timely and accurate prediction of rockburst grade has become a hot issue in the field of underground engineering.At present,the amount of real training data of rockburst prediction is small and the data is missing.In order to predict the rockburst grade more accurately,a combined weighting-extremely randomized trees(ET) prediction model based on chain random forest multiple interpolation(MICE_RF) algorithm was proposed.According to the characteristics and causes of rockburst,six evaluation indexes including maximum shear stress,uniaxial compressive strength,uniaxial tensile strength,stress coefficient,brittleness coefficient and elastic energy index were selected to form the rockburst evaluation index,and MICE_RF algorithm was used to interpolate the missing data of rockburst data set.Then,a new combined weighting method was proposed,which is the improved analytic hierarchy process(IAHP)-weight determination method based on index correlation(CRITIC),and the weight of each index was comprehensively calculated by using the concept of weight vector distance. Finally,the ET algorithm was used to construct the rockburst prediction model after interpolation,weighting and normalization.Using the existing engineering example data at home and abroad,20 random sampling tests were carried out,and compared with other models to verify the superiority of this model in rockburst grade prediction.In this study,the interpolation effect based on MICE_RF missing value,the combined weighting effect of IAHP-CRITIC index and the comparison of the prediction effects of different models were analyzed and verified respectively.So,the ET rockburst prediction model based on MICE_RF and improved combined weighting was applied and the result of accuracy,precision,recall and RMSE were 93.10%,94.17%,93.44% and 0.2626.The results show that the MICE_RF missing data interpolation method not only increases the available rockburst data set,but also can effectively improve the prediction accuracy of three levels of no rockburst,intermediate rockburst and strong rockburst,and the average prediction accuracy of the complete data set has also been significantly improved.The improved AHP-CRITIC method has more advantages than the previous one,and the ET algorithm is significantly better than other comparison models in the results of four comparison indexes,that is,IAHP-CRITIC-ET model based on MICE_RF can significantly improve the prediction accuracy of rockburst grade,and the prediction results are more stable,which can provide effective guidance for similar projects.

Keywords: rockburst grade prediction ; missing data ; multiple interpolation algorithm of chain random forest (MICE_RF) ; combination weighting ; weight vector distance ; extremely randomized trees(ET) algorithm

PDF (2911KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

温廷新, 苏焕博. 基于MICE_RF的组合赋权—极限随机树岩爆预测模型[J]. 黄金科学技术, 2022, 30(3): 392-403 doi:10.11872/j.issn.1005-2518.2022.03.145

WEN Tingxin, SU Huanbo. Combined Weighting-Extremely Randomized Trees Rockburst Prediction Model Based on MICE_ RF[J]. Gold Science and Technology, 2022, 30(3): 392-403 doi:10.11872/j.issn.1005-2518.2022.03.145

岩爆是地下岩石工程开挖或外界扰动下,岩体聚积的弹性变形势能突然释放,导致围岩爆裂、弹射的动力灾害现象(李任豪等,2020刘飞,2020卢富然等,2018)。近年来,随着采矿业不断向深部推进以及隧道等地下工程的扩大,岩爆灾害呈频发趋势(Xie et al.,2021殷欣等,2020)。岩爆作为一种具有很强突发性和随机性的动力失稳地质灾害,对人员、设备和建筑的安全构成了巨大的威胁(田睿等,2020a)。因此,如何及时、准确地预测岩爆等级已成为地下工程领域亟需解决的热点问题。

关于岩爆等级预测问题,国内外学者开展了大量研究。相关研究主要包括判据预测、现场监测和综合预测等。近年来,随着岩爆预测研究的不断深入,指标赋权类算法和机器学习算法得到了较快发展(谭文侃等,2021)。以指标权重为核心的岩爆等级预测方法包括层次分析法(AHP)(田睿等,2020b)、改进熵权-CRITIC法(黄建等,2019)和粗糙集理论(商欢迪等,2017)等;以机器学习算法为核心的预测模型包括支持向量机(SVM)(李明亮等,2021)、神经网络(Zheng et al.,2019)和K近邻(汤志立等,2020)等。迄今为止还没有一种理论或方法能够非常准确地预测岩爆,岩爆预测需结合多种方法和理论(殷欣等,2020)。鉴于此,谢学斌等(2020)提出了一种基于CRITIC-XGB算法的岩爆等级预测模型,该模型具有更快的收敛速度和更高的预测精度;殷欣等(2020)提出了一种基于AHP和反熵权法的综合赋权,再通过属性区间识别理论建立岩爆烈度预测模型,综合考虑了各指标权重的主观性和客观性。上述模型均显著提高了岩爆预测精度,但也存在一些问题有待改进,如:CRITIC法仅计算客观权重,过度依赖指标的变异程度;传统的AHP法中,各指标权重在选择判断矩阵时是随机的,导致计算的权重可能会偏离实际权重。此外,关于岩爆灾害发生的数据难以收集,特别是强烈岩爆数据较少,即使能在灾害发生前记录相关数据,也存在个别数据缺失的情况,导致岩爆预测时存在精度较低和性能不稳定等问题。

鉴于此,本研究将链式随机森林的多重插补(MICE_RF)算法用于岩爆缺失数据的插补处理;再提出一种新的组合赋权方法,采用改进层次分析法(IAHP)—基于指标相关性的权重确定方法(CRITIC)确定指标的主、客观权重,并应用权向量距离概念,计算各指标的组合权重,更加准确地反映岩爆赋权指标的主观性、客观性及指标间的相关性;最后将插补、赋权后的数据集利用极限随机树(ET)算法预测岩爆等级,并与其他算法进行对比分析,验证本文模型在岩爆等级预测方面的优越性,以期为岩爆预测提供一种新的思路。

1 理论基础与模型构建

1.1 MICE_RF算法

在科学研究过程中,数据缺失会减少原始数据中有价值的信息量,导致估计效率降低,易得出误导性结论(陈娟等,2020吴桐雨等,2018),因此需对缺失数据进行插补处理。由于岩爆发生的次数较少,部分指标数据难以收集,为增大可用数据集,提高岩爆预测效果,其缺失数据显然是不可忽略的。

缺失数据插补是最常用于处理缺失数据问题的方法,常用的插补技术包括基于统计分析和机器学习2种类型。在统计分析领域,学者们做了大量研究,并提出了许多有效的方法,多重插补是众多方法中最完善的一种(刘凤芹,2009)。Boshuizen et al.(1999)提出的基于链式方程多重插补(MICE)是一种特殊的多重插补方法,其链式方程是一个形象的称谓,具体算法由一系列模型组成,任何能够推理的预测模型均可作为插补模型用于MICE中(刘凤芹,2009)。MICE可有效代表数据的统计属性,即缺失数据插补前后具有近似相同的分布,然而插补过程中存在随机性,随着缺失率上升,其插补效果越来越差(宋亮等,2020)。理论上,并没有一种方法适用于所有缺失问题,需对具体问题提出适合的插补方法(刘凤芹,2009)。随机森林方法是基于机器学习领域的插补技术,通过构造多棵决策树对缺失数据进行插补,插补后数据具有随机性,使其抗干扰能力和泛化能力较强,故受异常数据影响较小,插补精度更高,此外,随着缺失比例增大,其误差上升不明显,说明稳健性更好,较好地弥补了MICE的不足,但该方法在数据分布上有待进一步提高(钱超等,2016)。对岩爆预测中的缺失数据插补时,基于案例分析的历史数据,将模型应用于实际工程预测中,当预测新样本出现新的异常值或数据缺失率增大时,对插补方法的稳健性和精度要求更高。因此,利用MICE_RF缺失数据插补方法来处理岩爆数据的缺失问题,即将RF作为MICE的插补预测模型,在保证精度的同时,提高数据分布能力,其插补过程如图1所示。

图1

图1   MICE_RF算法插补过程

Fig.1   MICE_RF algorithm interpolation process


图1可知,MICE_RF算法插补过程包含插补、分析和汇总3个步骤。首先,RF( )函数从一个包含缺失数据的矩阵开始,返回一个包含p个(默认p=5)插补完整数据集,每个完整数据集都是对原始矩阵中缺失值进行链式随机森林的多重插补得到的,且每个完整数据集略有不同,运行RF( )函数循环迭代q次直到所有的缺失值都收敛为止,设置q=10;with( )函数采用标准的完全数据分析方法分别对每个完整数据集进行分析,得到p个结果列表对象;最后pool( )函数将这些单独的分析结果整合为一组结果,得到最终的统计推断。

1.2 IAHP-CRITIC组合赋权

为弥补单一赋权方法考虑不周的缺陷,综合反映岩爆赋权指标的主观性、客观性及指标间的相关性,提出了一种基于IAHP-CRITIC的组合赋权方法。

(1)IAHP

传统的AHP通过选择一个合适的判断矩阵得到岩爆预测中评判指标的权重,由于判断矩阵选择的随机性,导致计算得到的权重可能会偏离实际权重。为了保证权重更加准确地反映各指标的实际影响程度,提出IAHP,通过构建k个合适的判断矩阵,计算出权重区间内各指标的最优权重。其主要步骤如下:

Step 1:利用Saaty(1994)提出的1~9标度方法得到k个两两比较判断矩阵 Ck =(cabkn×n,可表示为

Ck=c11,kc12,kc1n,kc21,kc22,kc2n,kcn1,kcn2,kcnn,k

式中:ab=1,2,…,nn为评判指标个数;cab 表示决定岩爆发生的a指标对b指标的相对重要程度。在实际岩爆案例中,由于岩爆发生机制复杂,受多种因素影响,多位专家构造的判断矩阵难以实现整体判断上的一致性,会产生估计误差,为降低误差对评判结果的影响,需进行一致性检验。

Step 2:判断矩阵的一致性检验。根据矩阵理论,当矩阵 C 具有完全一致性时,λ1,k =λmax,k = n,其余特征根为0;当矩阵不具有完全一致性时,则有λ1,k =λmax,k>n,其余特征根λ2,k,λ3,k…,λnk 有如下关系λmax,k=n-i=2nλi,k。当判断矩阵不能保证具有完全一致性时,可利用判断矩阵 C 特征根的变化来检验判断的一致性程度,即在层次分析法中引入判断矩阵λmax,k 以外的其余特征根的负平均值,作为度量判断矩阵偏离一致性的指标,表示为

CIk=λmax,k-nn-1

CI=0,λ1,k =λmax,k = n,判断矩阵具有完全一致性。当衡量不同阶判断矩阵的一致性时,还需引入平均随机一致性指标RI值。当阶数大于2时,判断矩阵的CI与同阶RI之比记为CR,如式(3)。当CR<0.1时,即认为判断矩阵具有满意的一致性,否则需对判断矩阵进行调整直至具有满意的一致性。

CRk=CIkRIk

Step 3:计算指标的排序权重,构建指标变量权值区间。采用最大特征值法计算每一个判断矩阵的权重向量并获得优先排序,计算公式为

Ckwk=λmax,kwk

式中:λmax,k 为选取的第k个判断矩阵 Ck 的最大特征值, wk 是第k个判断矩阵对应的特征向量。对第k个判断矩阵的特征向量 wk =[w1,kw2,k,…,wnk ]进行归一化处理,表示为

Wa,k=wa,ka=1nwa,k

式中:Wak 是第k个判断矩阵下指标a的权重,每个指标都有k个权重,则n个指标的权重区间可表示为

W=[W1,1W1,2W1,k][W2,1W2,2W2,k][Wa,1Wa,2Wa,k][Wn,1Wn,2Wn,k]

Step 4:得到最优权重。最优权重充分考虑了权重区间内的所有权重,保证得到的指标权重能够更好地反映实际情况。wa 表示a指标的权重,本文岩爆预测的评判指标n=6,选取k=4个合理的判断矩阵,则将目标函数构造为式(7)。由此得到的a指标的最优权值记为w*a

mina=16k=14(Wa,k-wa)2s.t.a=16wa=1,0wa1

(2)改进CRITIC法

CRITIC法是由Diakoulaki et al.(1995)提出的一种客观赋权法。应用文献(黄建等,2019)的改进CRITIC法,由于指标间的量纲、数据级不同,需对矩阵进行标准化处理,再采用变异系数对CRITIC法进行改进,根据指数的信息及指标间的相关性来分配指数权重,该方法明显优于目标加权法中的熵权法(Wu et al.,2020)。其主要步骤如下:

Step 1:岩爆数据集为m组,评价指标为n个,则第i组岩爆数据的第j个指标取值xij,构成原始样本数据矩阵X=(xij)m×n

Step 2:采用Z-score方法标准化数据矩阵中各指标值。

Step 3:计算所有指标的变异系数:

vj=sjxj(j=1,2,,n)

式中:vj 为第j个指标的变异系数;sjxj 分别为第j个指标的标准差和均值。

Step 4:计算标准化矩阵的相关系数,得到相关系数矩阵:

R=(rtl)n×n  (t=1,2,,n;l=1,2,,n)

式中:rkl 为第k个和第l个指标间的相关系数。

Step 5:计算各指标的独立系数:

ηj=t=1n(1-rij)(j=1,2,,n)

Step 6:计算反映各指标综合信息量的系数:

Cj=vjηj(j=1,2,,n)

Cj 的值越大,第j个指标所覆盖的信息量就越大。因此,应给其分配一个更大的权重。

Step 7:计算各指标权重wj

wj=Cjj=1nCj(j=1,2,,n)

(3)组合赋权的确定

权重 w1主要是采用IAHP依据主观经验得到的;权重 w2主要是采用改进CRITIC法依据客观数据规律得到的;综合考虑主客观权重,应用文献(王俊霞等,2013)中对权向量间距离的定义,设计s种赋权方法的距离函数,表示为

dawu,ws=j=1nwju-wjs a 1a

式中: wuws 为任意权向量;wju为第u种赋权方法下第j个指标的权重;da(wu,ws)wuws 之间的距离;一般a取1以上的整数,本文为简便计算,取a=1。组合赋权法的中心思想,需要通过最优化问题来实现(王俊霞等,2013)。通过构造一个优化模型,让组合权向量与原始权向量尽可能贴近,此时求得的组合权向量w0最优,计算过程为

min  d1w0,w1+d1w0,w2s.t. j=1nwj0=1,0wj01

式中: w0为组合权向量,n为指标个数,应用拉格朗日乘数法可得到最优解 w0

1.3 ET算法

ET算法是一种基于决策树的集成学习算法(龙艳芳,2017),其与RF算法十分相似,优点表现在:首先采用集成模型,精度比大多数单个算法好,准确性高且训练速度快,选择随机特征具有一定的抗噪声能力,不易陷入过拟合;其次ET算法使用整个原始训练样本,可减少偏差,且每棵决策树的分裂阈值是完全随机选择的,可减少方差(龙艳芳,2017王显龙等,2021)。因此,为提高模型预测精度和预测性能,选用ET算法进行岩爆等级预测,其流程如图2所示。

图2

图2   基于ET算法的岩爆等级预测流程

Fig.2   Prediction process of rockburst grade based on ET algorithm


1.4 岩爆预测模型构建流程

为综合利用MICE_RF的缺失数据插补、IAHP-CRITIC的指标组合赋权和ET算法的分类优势,提出了一种基于MICE_RF的组合赋权—极限随机树岩爆等级预测模型。该模型的运行步骤和流程如图3所示。

图3

图3   岩爆等级预测模型的运行步骤和流程

Fig.3   Operation steps and process of rockburst grade prediction model


2 试验与结果分析

2.1 岩爆评判指标选取

岩爆是地下工程开挖过程中高地应力区的一种动态不稳定现象,通常是由岩体内部和外部的多种因素共同引起的。基于国内外现有权威学者研究成果,提出了岩爆发生的必备条件:岩体处于高应力状态,其主应力接近或超过其强度岩石质量本身;岩石具有很大的弹性和脆性,说明在应力失效过程中,岩石断裂和变形所消耗的能量不足,剩余的势能转化为动能,以岩石喷射、非坍塌和强冲击波的形式立即释放(Xie et al.,2021)。

综上可知,岩爆的发生与岩石应力状态、岩性和储存能量等多种因素密切相关,根据上述岩爆的必要条件和特征,对大量岩爆案例和现有研究(田睿等,2020b张翔宇,2021卢富然等,2018殷欣等,2020Afraei et al.,2019)进行综合分析,选取围岩最大切应力X1(MPa)、单轴抗压强度X2(MPa)、单轴抗拉强度X3(MPa)、应力系数X4X1 / X2)、脆性系数X5X2 /X3)和弹性能量指数X6组成岩爆评判指标,选取理由(田睿等,2020a张翔宇,2021)如下:

(1)围岩最大切应力。包括:①实例中的地应力水平和岩爆发生的部位,岩爆通常发生在应力集中程度较高的岩体中;②地形地貌方面,岩爆通常发生在山体或深埋的地下工程中,或是构造应力较高的岩体中;③地质构造方面,岩爆易发生在硬性结构面附近;④结构布局方面,开挖断面越不规则,岩爆发生的可能性越大。以上因素均可以由硐壁围岩最大切向应力来反映。

(2)单轴抗拉强度。实例中岩爆断面形式主要是张拉破坏,伴有剪切破坏,抗拉强度代表岩石的抗拉和抗剪2种力学性质。

(3)单轴抗压强度。实例中反映岩爆主要发生在结构完整的硬岩中,而常用于衡量岩石坚硬程度的指标为单轴抗压强度,几乎每个岩体工程中均需测量岩石的抗压强度。

(4)应力系数。地下工程开挖形成临空面,当某一点的应力超过岩石自身所能承受的最大应力时,岩石发生破坏并产生岩爆,该指标成为判别岩爆的重要因素。

(5)脆性系数。岩体的脆性断裂和结构的失稳破坏发生在岩爆的动态过程中,其主要破坏形式为脆性破坏,故选取岩石脆性程度作为岩爆评判指标之一。

(6)弹性能量指数。该指标反映围岩的储能与释能情况,形成围岩高能储体的2个必备条件:①岩体可储聚较大的弹性应变能;②岩体内应力高度集中。相同应力条件下,弹性能量指数越大,代表岩体储聚与释放能量性能越好。

岩爆等级划分则参照王元汉等(1998)的划分标准,共有1 (无岩爆)、2 (轻微岩爆)、3 (中级岩爆)、4 (强烈岩爆)4个级别。

2.2 数据集预处理

(1)基于MICE_RF算法数据插补

基于文献(Afraei et al.,2019),选取地下工程岩爆案例共188组。其中,岩爆等级1、2、3、4的样本数目分别为31、52、73、32。该岩爆数据集的统计描述见表1

表1   原始岩爆数据集描述统计

Table 1  Descriptive statistics of original rockburst data set

评判指标个案数缺失个数最小值最大值
X1/MPa161272.600167.200
X2/MPa1612718.320306.580
X3137510.38022.600
X418800.0525.263
X5164244.47980.000
X618800.85010.570
有效个案数137---

新窗口打开| 下载CSV


表1可知,188组原始岩爆数据中,完整的数据有137组,有51组部分数据缺失。缺失数据的指标包括X1X2X3X5,其中,X3缺失最多,为51组。数据缺失率达到27.13%,当缺失率大于15%时,需进行插补处理(Acurna et al.,2004),若仅选用完整的数据样本,则数据量少,模型训练不充分,导致预测准确率及泛化能力降低,岩爆指标中数据的缺失为非单调缺失,故采用MICE_RF算法插补缺失数据。

为验证MICE_RF插补算法的优势,选取几种常用的插补方法,包括均值法(Mean)、支持向量机法(SVM)、K最近邻法(KNN)、随机森林法(RF)和蒙特卡罗的马氏链方法(MCMC),与MICE_RF算法进行对比。

缺失数据插补性能的评估主要基于预测准确度(PAC)和分布准确度(DAC)2个评估指标(Nugroho et al.,2021)。PAC主要通过Pearson相关系数(r)和均方误差(RMSE)来验证插补效果,其中,Pearson相关系数用来度量插补结果值与实际值间的差异,当r接近1时,表明插补技术是有效的;均方误差则用来描述插补结果值与真实值间的密切关系,RMSE值越小,表明插补效果越好(Nugroho et al.,2021)。DAC表示维持数据值真实分布的技术能力,使用Kolmogorov-Smirnov距离进行评估,通过K-S statistic和K-S p-value统计量,量化数据集一次插补所执行的经验分布与原始数据集作为参考分布的累积分布函数间的距离,若K-S statistic很小或K-S p-value很大,则表明缺失数据插补前后具有相同的分布,插补效果更好。6种插补算法的评估指标结果比较如表2所示。

表2   不同插补方法的效果对比

Table 2  Comparison of effects of different interpolation methods

评估指标MeanSVMKNNRFMCMCMICE_RF
PACr0.81610.81980.82950.86660.87970.9114
RMSE15.744116.102316.791913.522012.778910.9850
DACK-S statistic0.10950.09850.05840.05840.03640.0329
K-S p-value0.45200.52840.86180.91000.99860.9999

新窗口打开| 下载CSV


表2可知,相比其他方法,MICE_RF插补算法在PAC和DAC 2个评估指标上均具有明显的优势。结果表明:MICE_RF算法在对岩爆预测中缺失数据进行插补时更具优势。

(2)基于SMOTE数据重构

岩爆数据集中各等级样本数目不均衡,若将该非均衡数据集直接用于预测模型,预测结果易倾向于等级2和3。为避免此问题,提高岩爆预测模型的准确率,采用SMOTE将1、2、4这3个少数类样本人工合成73组,实现数据集平衡。经过采样后的部分样本数据见表3

表3   部分岩爆样本数据集

Table 3  Data set of some rockburst samples

序号岩爆指标实际类别
X1X2X3X4X5X6
14.6020.003.000.2306.6671.391
27.5052.003.700.14414.0541.301
29143.40136.507.200.31818.9585.603
29291.30225.6017.200.40513.1167.303

新窗口打开| 下载CSV


(3)基于IAHP-CRITIC组合权重确定

应用IAHP计算主观权重,根据相关专家主观评价结果,使用特征向量法并结合式(2)~式(7)计算各指标权重区间,再根据式(8)构造目标函数,最后求解最佳主观权重 w1=(0.3082,0.0404,0.0323,0.4181,0.0620,0.1390),最佳主观权重的计算过程如表4所示。

表4   最佳主观权重计算过程

Table 4  Calculation process of optimal subjective weight

判断矩阵C1C2C3C4
X1权重0.30620.27150.29490.3604
X2权重0.03780.03850.04120.0440
X3权重0.02790.02850.03850.0342
X4权重0.42840.47790.39760.3685
X5权重0.06660.05630.06240.0626
X6权重0.13300.12730.16540.1303
X1权重区间[0.2715,0.2949,0.3062,0.3604]
X2权重区间[0.0378,0.0385,0.0412,0.0440]
X3权重区间[0.0279,0.0285,0.0342,0.0385]
X4权重区间[0.3685,0.3976,0.4284,0.4779]
X5权重区间[0.0563,0.0624,0.0626,0.0666]
X6权重区间[0.1273,0.1303,0.1330,0.1654]
最优指标[0.3083,0.0404,0.0323,0.4181,0.0620,0.1390]

新窗口打开| 下载CSV


应用改进CRITIC法计算客观权重,采用Z-score方法对表3中各项指标数据进行标准化处理,再由式(8)~式(12)计算各指标客观权重 w2=(0.1097,0.1046,0.1514,0.3530,0.1769,0.1044)。

将计算得到的各指标主客观权重 w1w2,代入求解目标函数式(14),得到组合赋权权重 w0,整理结果见表5

表5   岩爆评判指标权重系数

Table 5  Weight coefficient of rockburst evaluation index

权重向量X1X2X3X4X5X6
w10.30820.04040.03230.41810.06200.1390
w20.10970.10460.15140.35300.17690.1044
w00.18910.07890.10370.37900.13110.1182

新窗口打开| 下载CSV


表3的4个等级的岩爆数据样本中,分别随机、等数目地选取59组,共236组作为岩爆等级预测模型的训练样本,剩余的56组作为测试样本。结合计算得到的综合权重 w0=(0.1891,0.0789,0.1037,0.3790,0.1311,0.1182),分别对训练样本和测试样本数据加权并归一化,将处理后数据采用ET算法,构建岩爆等级预测模型。

2.3 岩爆烈度等级预测

本文试验数据集中,缺失数据插补前,等级1、2、3、4的完整数据样本分别为25组、36组、54组和22组,对这4个等级的样本进行SMOTE处理,得到各等级完整样本均为54组,从中分别随机选取43组用于模型训练,剩余数据用于训练好的模型测试。数据插补后,4个等级数据样本均为73组,从中分别随机选取59组样本组成训练集,剩余样本作为测试集。为验证MICE_RF算法插补的有效性,分别对比4个等级数据样本和整体的数据样本在插补前后的预测效果。训练和测试样本选取不同,会对结果造成较大差异,为减小试验误差,重复20次,结果取均值。数据插补前后岩爆等级预测结果见表6

表6   插补前后岩爆等级预测结果

Table 6  Prediction results of rockburst grade before and after interpolation

数据集各岩爆等级预测准确率平均准确率均方误差
1234
插补前0.75000.80000.86670.66670.79550.4523
插补后1.00000.80000.93751.00000.93100.2626

新窗口打开| 下载CSV


表6可知,等级1、3、4的样本在插补后预测准确率均得到明显提高,分别提高了25%、7.08%和33.33%,而等级2样本在插补前后预测准确率均为80%;插补后整体的岩爆预测平均准确率为93.10%,远大于插补前的79.55%。结果表明:采用MICE_RF算法对岩爆缺失数据进行插补是有效的,可增大可用数据集,提高模型的稳定性。

为验证IAHP-CRITIC指标组合赋权的优势,采用MICE_RF算法插补后,分别构造数据集未加权样本、AHP-CRITIC加权样本和IAHP-CRITIC加权样本,使用ET算法分别在3种样本条件下进行模型训练并比较预测结果,重复试验20次。3种样本预测结果比较见表7

表7   不同指标组合赋权效果对比

Table 7  Comparison of weighting effects of different indicator combinations

模型平均预测准确率均方误差
ET0.89660.3216
AHP-CRITIC-ET0.91380.2936
IAHP-CRITIC-ET0.93100.2626

新窗口打开| 下载CSV


表7可知,数据集未加权样本的平均预测准确率最低,而AHP-CRITIC-ET模型和IAHP-CRITIC-ET模型的准确率分别提高了1.72%和3.44%。结果表明:对数据样本加权处理可有效提高模型的预测效果,且改进AHP-CRITIC指标组合赋权法较传统的AHP-CRITIC指标组合赋权法更具优势。

2.4 不同模型预测效果对比分析

为进一步验证ET算法在岩爆等级预测方面的优势,在对岩爆原始数据集进行MICE_RF插补、组合赋权后,使用Python分别实现SVM、KNN、BP、RF和GBDT这5种常用机器学习算法,并与ET算法进行对比。为充分发挥ET算法的计算优势和自主权,与其他算法进行公平比较,通常情况下,将每个节点随机选择属性的数目K设置为连续属性在给定样本集上的不同取值数、分裂一个节点所需的最小样本大小nmin设置为5,以及最终模型中树的数目M设置为100(龙艳芳,2017)。不同模型的预测等级与实际等级对比结果如图4所示。

图4

图4   各模型预测等级与实际等级对比

Fig.4   Comparison between prediction grade and actual grade of each model


图4可知,测试样本在ET算法上的预测效果最好,只有3组预测错误,其中将样本8和样本32的岩爆等级由轻微岩爆误判为中级岩爆,将样本34的岩爆等级由中级岩爆误判为强烈岩爆,结果偏安全,从工程安全的角度来说是允许的。由此可见,ET算法用于岩爆等级预测是可行且有效的。

综合考虑岩爆发生的破坏性和危害性,选用预测准确率、精确率、召回率和均方误差(RMSE)这4个指标来衡量本文提出的岩爆等级预测模型的性能,不同模型预测结果,预测效果比较见图5

图5

图5   各模型预测效果比较

Fig.5   Comparison of prediction effects of various models


由表8可知,RF、GBDT和ET这3个集成算法的均方误差均低于其他3个算法,而预测准确率、精确率和召回率均高于其他3个算法,由此反映出单一的机器学习算法对岩爆等级预测自适应较弱。而经过单一算法集成后,模型预测能力和拟合效果明显提高,表明集成预测模型能有效降低误差,提高模型的预测效果和泛化能力。对RF、GBDT和ET这3个集成算法进行比较,ET的4个比较指标结果均优于RF和GBDT。由此可见:基于MICE_RF的组合赋权—极限随机树模型在岩爆等级预测方面具有更好的、更稳定的预测效果。

3 结论

(1)采用MICE_RF算法进行缺失数据插补,结果表明该算法不仅增大了可用的岩爆数据集,而且有效提高了无岩爆、中级岩爆和强烈岩爆3个等级的预测准确率,完整数据集的平均预测准确率也得到显著提高。

(2)提出了一种IAHP-CRITIC组合赋权方法,使评价结果更加全面且客观合理。预测结果表明改进AHP-CRITIC组合赋权法优势显著,是一种有效的组合赋权方法。

(3)选用SVM、KNN、BP、RF、GBDT和ET这6种常用机器学习算法,对岩爆数据集预测效果进行对比分析,ET算法的4个比较指标结果均明显优于其他对比算法。结果表明基于MICE_RF的组合赋权—极限随机树模型可显著提高岩爆等级的预测准确率,预测结果更稳定,该模型具有较强的适用性。

(4)本研究选取的岩爆指标存在一定的局限性,未来将从岩爆的岩体特征、地应力、结构面和存储能量等多个角度综合考虑岩爆发生的内外影响因素,增大岩爆指标结构体系,从而进一步提高岩爆等级预测性能,保证地下工程的安全施工。

山东黄金集团有限公司

http://www.goldsci.ac.cn/article/2022/1005-2518/1005-2518-2022-30-3-392.shtml

参考文献

Acurna ERodriguez C2004.

The treatment of missing values and its effect in the classifier accuracy

[C]//Proceedings of the Meeting of the International Federation of Classification Societies (IFCS).ChicagoInternational Federation Classification Societies: 639-647.

[本文引用: 1]

Afraei SShahriar KMadani S H2019.

Developing intelligent classification models for rockburst prediction after recognizing significant predictor variables,Section 1:Literature review and data preprocessing procedure

[J].Tunnelling and Underground Space Technology,83324-353.

[本文引用: 2]

Boshuizen H CKnook D L1999.

Multiple imputation of missing blood pressure covariates in survival analysis

[J].Statistics in Medicine,(7):681-694.

[本文引用: 1]

Chen JuanWang XianyuLuo Linglinget al2020.

Missing value filling effect:A comparison between machine learning and statistical learning

[J].Statistics and Decision Making,3617):28-32.

Diakoulaki DMavrotas GPapayannakis L1995.

Determining objective weights in multiple criteria problems:The CRITIC method

[J].Computers and Operations Research,227):763-770.

[本文引用: 1]

Huang JianXia YuanyouLin Manqing2019.

Study on multi-dimensional cloud model prediction of rockburst based on improved combination weighting

[J].Chinese Journal of Safety Science,297):26-32.

Li MingliangLi KegangQin Qingciet al2021.

Discussion and selection of machine learning algorithm model for rockburst intensity grade prediction

[J].Chinese Journal of Rock Mechanics and Engineering,40Supp.1):2806-2816.

Li RenhaoGu HelongLi Xibinget al2020.

A PSO-RBF neural network model for rockburst tendency prediction

[J].Gold Science and Technology,281):134-141.

Liu Fei2020.

Study on the Evolution and Warning of Rockbursts in Deep-buried Tunnels of the Hanjiang-to-Weihe River Diversion Project by Microseismic Monitoring

[D].DalianDalian University of Technology.

Liu Fengqin2009.

Multiple imputation of missing values of income variables based on chain equation

[J].Statistical Research,261):71-77.

Long Yanfang2017.

Research on Short-term Traffic Flow Prediction Model Based on Ensembles of Extremely Randomized Trees

[D].ChangshaHunan University.

Lu FuranChen Jianhong2018.

Rockburst prediction method based on AHP and entropy weight TOPSIS model

[J].Gold Science and Technology,263):365-371.

Nugroho HUtama N PSurendro K2021.

Class center-based firefly algorithm for handling missing data

[J].Journal of Big Data,81):1-14.

[本文引用: 2]

Qian ChaoChen JianxunLuo Yanbinet al2016.

Missing data interpolation method for highway tunnel operation based on random forest

[J].Transportation System Engineering and Information,163):81-87.

Saaty T L1994.

How to make a decision:The analytic hierarchy process

[J].Interfaces,246):19-43.

[本文引用: 1]

Shang HuandiWang PingPei Mingsonget al2017.

Rockburst prediction based on rough set and weighted grey correlation analysis

[J].Industrial Safety and Environmental Protection,436):47-51.

Song LiangWan Jianzhou2020.

Comparative study on missing data interpolation methods

[J].Statistics and Decision Ma-king,3618):10-14.

Tan WenkanYe YichengHu Nanyanet al2021.

Strong rockburst prediction based on LOF and improved SMOTE algorithm

[J].Chinese Journal of Rock Mechanics and Engine-ering,406):1186-1194.

Tang ZhiliXu Qianjun2020.

Research on rockburst prediction based on nine machine learning algorithms

[J].Chinese Journal of Rock Mechanics and Engineering,394):773-781.

Tian RuiMeng HaidongChen Shijianget al2020a.

Prediction of intensity classification of rockburst based on deep neural network

[J].Journal of China Coal Society,45Supp.1):191-201

Tian RuiMeng HaidongChen Shijianget al2020b.

Prediction model of rockburst intensity classification based on RF-AHP-Cloud model

[J].Chinese Journal of Safety Science,307):166-172

Wang JunxiaZhang YuYan Zheminget al2013.

Research on performance evaluation of rural public goods supply based on combination weighting method

[J].Journal of Northwest University(Philosophy and Social Sciences Edition),432):117-121.

Wang XianlongFeng ZaoZhao Yanfeng2021.

An active learning method for unbalanced sample set of pipeline blockage

[J].Chemical Automation and Instrumentation,483):222-231.

Wang YuanhanLi WodongLi Qiguanget al1998 .

Fuzzy mathematics comprehensive evaluation method for rockburst prediction

[J].Chinese Journal of Rock Mechanics and Engineering,(5):15-23.

Wu H WZhen JZhang J2020.

Urban rail transit operation safety evaluation based on an improved CRITIC method and cloud model

[J].Journal of Rail Transport Planning & Management,16100206..

URL     [本文引用: 1]

Wu TongyuWu Shaoxiong2018.

Missing value interpolation of statistical data based on kernel principal component analysis and particle swarm optimization support vector machine

[J].Statistics and Decision Making,348):21-24.

Xie XJiang WGuo J2021.

Research on rockburst prediction classification based on GA-XGB model

[J].IEEE Access,983993-84020.

[本文引用: 2]

Xie XuebinLi DexuanKong Lingyanet al2020.

Prediction model of rockburst tendency grade based on CRITIC-XGB algorithm

[J].Chinese Journal of Rock Mechanics and Engineering,3910):1975-1982.

Yin XinLiu QuanshengWang Xinyuet al2020.

Prediction model of rockburst intensity classification based on combined weighting and attribute interval recognition theory

[J]. Journal of China Coal Society,4511):3772-3780

Zhang Xiangyu2021.

Study on Rock Burst Mechanism and Comprehensive Prediction Method of Rock Mass with Structural Plane

[D].JinanShandong University.

Zheng YZhong HFang Yet al2019.

Rockburst prediction model based on entropy weight integrated with grey relational BP neural network

[J].Advances in Civil Engineering,(4):1-8..

URL     [本文引用: 1]

陈娟王献雨罗玲玲2020.

缺失值填补效果:机器学习与统计学习的比较

[J].统计与决策,3617):28-32.

[本文引用: 1]

黄建夏元友吝曼卿2019.

基于改进组合赋权的岩爆多维云模型预测研究

[J].中国安全科学学报,297):26-32.

[本文引用: 2]

李明亮李克钢秦庆词2021.

岩爆烈度等级预测的机器学习算法模型探讨及选择

[J].岩石力学与工程学报,40增1):2806-2816.

[本文引用: 1]

李任豪顾合龙李夕兵2020.

基于PSO-RBF神经网络模型的岩爆倾向性预测

[J].黄金科学技术,281):134-141.

[本文引用: 1]

刘飞2020.

引汉济渭深埋隧洞岩爆孕育特征与微震监测预警研究

[D].大连大连理工大学.

[本文引用: 1]

刘凤芹2009.

基于链式方程的收入变量缺失值的多重插补

[J].统计研究,261):71-77.

[本文引用: 3]

龙艳芳2017.

基于极限随机树集成的短时交通流预测模型研究

[D].长沙湖南大学.

[本文引用: 3]

卢富然陈建宏2018.

基于AHP和熵权TOPSIS模型的岩爆预测方法

[J].黄金科学技术,263):365-371.

[本文引用: 2]

钱超陈建勋罗彦斌2016.

基于随机森林的公路隧道运营缺失数据插补方法

[J].交通运输系统工程与信息,163):81-87.

[本文引用: 1]

商欢迪王平裴明松2017.

基于粗糙集和加权灰色关联分析的岩爆预测

[J].工业安全与环保,436):47-51.

[本文引用: 1]

宋亮万建洲2020.

缺失数据插补方法的比较研究

[J].统计与决策,3618):10-14.

[本文引用: 1]

谭文侃叶义成胡南燕2021.

LOF与改进SMOTE算法组合的强烈岩爆预测

[J].岩石力学与工程学报,406):1186-1194.

[本文引用: 1]

汤志立徐千军2020.

基于9种机器学习算法的岩爆预测研究

[J].岩石力学与工程学报,394):773-781.

[本文引用: 1]

田睿孟海东陈世江2020a.

基于深度神经网络的岩爆烈度分级预测

[J].煤炭学报,45增1):191-201.

[本文引用: 2]

田睿孟海东陈世江2020b.

RF-AHP-云模型下岩爆烈度分级预测模型

[J].中国安全科学学报,307):166-172.

[本文引用: 2]

王俊霞张玉鄢哲明2013.

基于组合赋权方法的农村公共产品供给绩效评价研究

[J].西北大学学报(哲学社会科学版),432):117-121.

[本文引用: 2]

王显龙冯早赵燕锋2021.

一种面向管道堵塞不均衡样本集的主动学习方法

[J].化工自动化及仪表,483):222-231.

[本文引用: 1]

王元汉李卧东李启光1998.

岩爆预测的模糊数学综合评判方法

[J].岩石力学与工程学报,(5):15-23.

[本文引用: 1]

吴桐雨吴少雄2018.

基于核主成分分析和粒子群优化支持向量机的统计数据缺失值插补

[J].统计与决策,348):21-24.

[本文引用: 1]

谢学斌李德玄孔令燕2020.

基于CRITIC-XGB算法的岩爆倾向等级预测模型

[J].岩石力学与工程学报,3910):1975-1982.

[本文引用: 1]

殷欣刘泉声王心语2020.

基于组合赋权和属性区间识别理论的岩爆烈度分级预测模型

[J].煤炭学报,4511):3772-3780.

[本文引用: 4]

张翔宇2021.

含结构面岩体岩爆发生机理及综合预测方法研究

[D].济南山东大学.

[本文引用: 2]

/