基于集成树算法的岩石黏聚力和内摩擦角预测方法

doi:10.11872/j.issn.1005-518.2024.05.086

基于集成树算法的岩石黏聚力和内摩擦角预测方法

李地元^,¹, 杨博¹, 刘子达¹, 刘永平², 赵君杰¹

1.中南大学资源与安全工程学院，湖南长沙 410083

2.镍钴共伴生资源开发与综合利用全国重点实验室，甘肃金昌 737100

Prediction Method of Rock Cohesion and Internal Friction Angle Based on Ensemble Tree Algorithm

LI Diyuan^,¹, YANG Bo¹, LIU Zida¹, LIU Yongping², ZHAO Junjie¹

1.School of Resources and Safety Engineering, Central South University, Changsha 410083, Hunan, China

2.National Key Laboratory of Ni&Co Associated Minerals Resources Development and Comprehensive Utilization, Jinchang 737100, Gansu, China

收稿日期: 2024-03-28 修回日期: 2024-08-08

基金资助:

国家自然科学基金面上项目“深部进路开采采场环境感知与爆破参数智能优化”. 52374153

Received: 2024-03-28 Revised: 2024-08-08

作者简介 About authors

李地元（1981-），男，湖南新邵人，教授，从事岩石力学和岩石地下工程方面的教学科研工作diyuan.li@csu.edu.cn , E-mail：diyuan.li@csu.edu.cn

摘要

岩石的黏聚力（c）和内摩擦角（φ）是岩石工程设计及稳定性评价的重要参数，其直接测量需通过多组三轴或剪切试验，耗时多且成本高。基于4个易获取的岩石物理力学参数（纵波波速V_P、密度ρ、单轴抗压强度UCS和巴西抗拉强度BTS），构建了用于预测c和φ值的智能模型。共收集了199组含不同岩石类型的数据，采用5种集成树算法开发预测模型，使用贝叶斯优化算法对模型的超参数进行优化。模型评估结果表明：构建的模型均具有较好的预测性能，其中极端随机树模型表现最佳（测试R²>0.97）。敏感性分析表明：V_P、UCS和BTS对c值的预测结果影响较大，ρ对φ值的预测结果影响较大。研究成果已成功应用于金川矿区，验证了模型的实用性，开发的图形用户界面便于工程技术人员使用。

关键词： 黏聚力 ; 内摩擦角 ; 机器学习 ; 集成树算法 ; 贝叶斯优化 ; 智能预测

Abstract

The cohesion（c） and internal friction angle（φ） of rock are critical parameters in the design and stability assessment of rock engineering projects.Direct measurement of these parameters necessitates condu-cting numerous rock triaxial or shear tests，which are both time-intensive and expensive.This study proposes the development of intelligent models to predict the values of c and φ based on four readily obtainable parameters：P-wave velocity（V_P），density（ρ），uniaxial compressive strength（UCS），and Brazilian tensile strength（BTS）.A total of 199 datasets containing various rock types were collected and randomly partitioned into a training set（80%） and a test set（2%）.The distribution characteristics and correlations among the data were analyzed using scatter plots for data distribution and correlation plots for variables.To address discrepancies in characteristic attributes，such as magnitude and order of magnitude across different input variables，a normalization function was applied.Subsequently，five ensemble trees were utilized to develop predictive models for rock shear strength parameters.Bayesian optimization was employed to optimize the hyperparameters of the models.Concurrently，five-fold cross-validation was implemented during model training.To evaluate the performance of the models，four widely recognized regression metrics were utilized：The coefficient of determination （R²），root mean square error （RMSE），mean absolute error （MAE），and variance accounted for （VAF）.Additionally，a ranking system was introduced to provide a comprehensive assessment of the five models.The model evaluation demonstrated that the constructed models exhibited robust predictive performance，with the extremely randomized tree model outperforming others.Specifically，for predicting the value of c，the R² was 0.993，the RMSE was 0.45，the MAE was 0.309，and the VAF was 99.306%.For predicting the value of φ，the R² was 0.97，the RMSE was 0.823，the MAE was 0.612，and the VAF was 97.058%.Furthermore，the application of the SHAP interpretation method for sensitivity analysis indicated that V_P，UCS，and BTS significantly influenced on the prediction of c，whereas ρ had a substantial impact on the prediction of φ.Finally，rock blocks were collected and processed into samples for physical-mechanical testing to determine the V_P，ρ，UCS，BTS，c，and φ values of rocks at various locations within the Jinchuan Ⅱ and Ⅳ mining areas in China.The model was effectively utilized to predict the c and φ values for rocks in the Jinchuan mining area，thereby validating its practicability.Furthermore，a graphical user interface was developed to facilitate ease of use for engineers and technicians in the field.

Keywords： cohesion ; internal friction angle ; machine learning ; ensemble tree algorithm ; Bayesian optimi-zation ; intelligent prediction

PDF (9665KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

李地元, 杨博, 刘子达, 刘永平, 赵君杰. 基于集成树算法的岩石黏聚力和内摩擦角预测方法[J]. 黄金科学技术, 2024, 32(5): 847-859 doi:10.11872/j.issn.1005-518.2024.05.086

LI Diyuan, YANG Bo, LIU Zida, LIU Yongping, ZHAO Junjie. Prediction Method of Rock Cohesion and Internal Friction Angle Based on Ensemble Tree Algorithm[J]. Gold Science and Technology, 2024, 32(5): 847-859 doi:10.11872/j.issn.1005-518.2024.05.086

在岩石边坡滑移和断层滑移等灾害事故中，剪切破坏是岩石失稳的主要破坏模式之一（高安森等，2022；Zhang et al.，2022；陈绍杰等，2023）。作为表征岩石抵抗剪应力的重要参数，黏聚力和内摩擦角已被广泛应用于岩石工程设计、开挖和稳定性评价。

通常情况下，黏聚力和内摩擦角通过岩石三轴试验或剪切试验（直接剪切和预设角剪切）测定（唐杰军等，2007；赵奎等，2013；修占国等，2021；谢志英等，2024）。然而，室内试验需要制备多组试样进行力学测试，花费大量的时间和成本。同时，对于破碎、软弱和风化的岩石，往往较难获取大量完整的岩心试样，如图1所示。室内试验周期长、成本高且试样难获取，导致岩石工程现场黏聚力和内摩擦角无法及时获取，从而影响工程建设进度和施工安全性。因此，有必要探索简单且经济的方法来快速获取岩石抗剪强度参数。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 金川矿区钻孔取心的破碎矿岩

Fig.1 Broken rock of borehole coring in Jinchuan mining area

研究人员探索了岩石抗剪强度参数与其他物理力学参数的相关关系，利用回归分析建立经验方程，从而间接估计岩石抗剪强度参数。 Hajdarwish et al.（2013）以泥岩为研究对象，分别采用二元和多元回归分析研究了抗剪强度参数与黏土含量、黏土矿物组成、含水量、比重、干密度、孔隙比、崩解耐久性指数等参数的相关性。Kainthola et al.（2015）研究了黏聚力和内摩擦角与纵波波速的关系，利用线性拟合得到了经验回归方程。经验方程在预测岩石抗剪强度参数时具有简单实用的优点，但其仅对某些特定的岩石和地质条件有效。近年来，人工智能算法在岩土工程领域得到广泛应用并取得显著成效（Sharma et al.，2021；Li et al.，2022），许多算法也成功应用于抗剪强度参数预测中。例如：Shen et al.（2018）采用遗传规划建立了基于岩石单轴抗压强度、单轴抗拉强度和围压的抗剪强度参数预测模型。Mahmoodzadeh et al.（2022）也采用以上3个参数，分别利用高斯过程回归、支持向量机（SVM）、决策树（DT）和长短期记忆（LSTM）4种机器学习技术开发了黏聚力和内摩擦角的预测模型，并使用了6种元启发式算法对LSTM模型进行优化。Shahani et al.（2022）以纵波波速、密度、单轴抗压强度和巴西抗拉强度作为输入参数，开发了基于套索回归、岭回归、DT和SVM的抗剪强度参数预测模型。

以往研究多采用单一模型进行预测，其稳健性和泛化能力往往不强，预测效果会随工程环境的变化而波动（Armaghani et al.，2014）。此外，用于开发岩石抗剪强度参数预测模型的数据集通常呈线性和非线性复杂模式。鉴于数据集的复杂性，有必要采用更强大的技术来深入挖掘岩石抗剪强度参数与其他易获取的物理力学参数之间的关系。鉴于此，本文引入了集成树算法和贝叶斯优化算法用于构建岩石抗剪强度参数预测模型。单个决策树通过分裂节点来捕获数据中的线性和非线性特征，集成模型通过组合多个决策树，能够更好地捕获数据中复杂的线性和非线性关系，具有更好的稳健性和泛化性。

纵波波速、密度、单轴抗压强度和巴西抗拉强度被选作岩石抗剪强度参数预测的输入变量。基于这些参数，开发随机森林（RF）、极端随机树（ET）、自适应提升树（AdaBoost）、梯度提升树（GBDT）和CatBoost这5种集成树模型用于预测岩石黏聚力和内摩擦角，并通过贝叶斯优化算法提高其预测精度。综合考虑多种评价指标对模型进行评估，选出最优模型。此外，对模型进行敏感性分析，确定输入参数的重要性及其对预测结果的影响。最后，开发了图形用户界面，并成功应用于金川矿区。

1 集成树算法及优化策略

集成算法通过一定的集成策略将多个基学习器结合成一个性能较强的学习器。基学习器是指在集成学习方法中用于构建最终模型的个体模型。集成算法可划分为Bagging和Boosting系列算法。集成树算法是以决策树为基学习器的集成算法。

1.1 Bagging及相关算法

Bagging是由Breiman（1996）提出的一种经典的并行式集成算法。该算法在原始数据集的随机子集上训练多个基学习器，然后将这些基学习器的预测结果结合起来形成最终的预测结果。抽样时采用自助采样法，可获得相互有交叠的抽样子集，减少了基学习器的方差，提高了模型的泛化性能。Bagging算法的流程如图2所示。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 Bagging算法流程示意图

Fig.2 Schematic diagram of Bagging algorithm flow

RF是基于Bagging的一个扩展算法（Breiman，2001）。它以决策树为基学习器，模型训练时每一棵树的输入样本都是由随机采样而来。同时，RF采用特征随机采样，在全部特征中随机选择m个特征用于构建决策树模型，其中m远小于全部特征数。RF中的样本随机采样和特征随机采样保证了随机性，降低了过拟合的概率（刘强等，2018；邓红卫等，2023）。ET是一种类似RF的集成算法，基学习器都是决策树（Geurts et al.，2006）。不同的是，在构建决策树时，ET利用所有原始样本，因此在一定程度上减小了预测偏差。为了提高随机性，ET在节点分裂时采用随机属性分裂的方式。因此，相比RF，ET在小样本上的表现更为出色，且具有更优的泛化能力。

1.2 Boosting及相关算法

Boosting是一类将弱学习器提升为强学习器的集成学习算法，通过改变训练样本的权值，训练多个基学习器，并将这些基学习器进行加权结合，提高泛化性能。训练基学习器的流程如图3所示。由于Boosting对基学习器的选取要求不高，基于Bosting发展出一系列相关算法（谭文侃等，2022）。其中，AdaBoost、GBDT和CatBoost算法具有较好的预测性能。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 Boosting算法流程示意图

Fig.3 Schematic diagram of Boosting algorithm flow

AdaBoost作为Boosting系列的经典算法，无需事先获知基学习器的训练误差，更具有实用性。该算法的核心是，通过在每次训练中增加对上一次训练误差较大样本的关注度，逐步构建精度较高的强学习器（方博扬等，2023）。GBDT应用梯度下降法，可以优化任何一种可微损失函数（Tsang et al.，2022），其主要思想是将提升树中的残差替换为损失函数在当前模型值上的负梯度。CatBoost是由Prokhorenkova et al.（2018）提出的，作为GBDT的改进算法，其引入了排序提升的方法，减少了梯度偏差的影响，解决了预测偏移的问题。

1.3 贝叶斯优化

贝叶斯优化（Bayesian Optimization，BO）是一种黑盒优化方法，只关注目标函数的输入和输出，可以有效地处理高维、非凸和评估代价高昂的目标函数。BO通过先验概率分布确定后验概率分布，根据后验概率分布确定下一个采样的超参数组合（Zhou et al.，2021）。贝叶斯优化（BO）包括概率代理模型和采集函数2个部分。概率代理模型由先验概率分布和观测模型组成，先验概率分布提供事先的知识，指导模型参数的估计，观测模型则利用已有数据来更新先验概率分布，得到包含更多信息的后验概率分布。概率代理模型可划分为参数统计模型和非参数统计模型，其中，非参数统计模型高斯过程应用最广泛（崔佳旭等，2018）。采集函数使用代理模型信息来获取下一个要评估的点，并综合考虑探索和开发的平衡，实现全局优化。常用的采集函数中，组合策略GP-Hedge算法具有较高的稳健性。贝叶斯优化（BO）流程如图4所示。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 贝叶斯优化（BO）流程图

Fig.4 Flow chart of Bayesian Optimization（BO）

2 数据库

2.1 数据收集

本文使用的岩石物理力学参数来自Kainthola et al.（2015），包括49组石灰岩、50组石英岩、50组板岩和50组石英云母片岩，合计199组数据。数据包括纵波波速（V_P）、密度（ρ）、岩石单轴抗压强度（UCS）、巴西抗拉强度（BTS）、黏聚力（c）和内摩擦角（φ）。参考以往研究，选择V_P、ρ、UCS和BTS作为本研究的输入变量。

2.2 数据分析

对数据进行统计分析，在表1中列出各参数的范围、平均值、标准差、分位数、偏度和峰度。由表1可知，输入和输出变量的偏度不为0，表明数据分布是不对称的；峰度小于0，表明数据是分散的。各变量之间的相关性如图5所示，可以看出，c与V_P、UCS和BTS之间具有较强的相关性，而φ与ρ的相关性强于其他变量。

表1 数据统计信息

Table 1 Statistical information of data

统计项目	V_P /（m·s^-1）	ρ /（g·cm^-3）	UCS /MPa	BTS / MPa	c /MPa	φ/（°）
数量	199	199	199	199	199	199
平均值	4 350.51	2.66	127.45	15.96	19.26	34.22
标准差	1 105.43	0.10	55.26	6.93	5.16	4.41
最小值	2 209.34	2.41	40.97	5.20	9.96	24.57
25%分位数	3 603.11	2.59	88.00	10.60	15.54	30.43
50%分位数	4 240.93	2.67	120.90	15.13	18.70	34.55
75%分位数	5 286.29	2.74	165.05	20.89	22.03	37.70
最大值	6 328.14	2.89	237.76	29.85	32.11	43.35
偏度	-0.07	-0.20	0.30	0.29	0.48	-0.12
峰度	-0.98	-0.25	-0.89	-0.87	-0.23	-0.88

新窗口打开| 下载CSV

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 各变量相关性图

Fig.5 Correlation diagram of each variable

2.3 技术流程

将数据库随机划分为训练集（80%）和测试集（20%），如图6所示。使用5种集成树算法分别对训练集进行训练，通过贝叶斯优化算法调整各模型的超参数。采用4个回归评价指标评估优化过的5种集成树模型，通过排名系统选取最优集成树模型。最后对最优模型进行敏感性分析，计算输入参数的相对重要性及其对预测结果的影响，并将其运用到实际工程中。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 技术流程图

Fig.6 Technique flow chart

3 模型训练

3.1 数据预处理

训练集包括159组数据，用于训练5种集成树模型和使用Z-score标准化消除不同输入变量之间量纲和数量级等特征属性的差异，使模型更容易学习和优化，处理过程可表示为

$x^{*} = \frac{x - μ}{σ}$

（1）

式中： $x^{*}$ 为标准化后的数据； $x$ 为原始数据； $μ$ 为原始数据的均值； $σ$ 为原始数据的标准差。

3.2 模型开发及优化过程

使用Python中的开源库Scikit-learn开发RF、ET、AdaBoost和GBDT模型，使用CatBoost库开发CatBoost模型。为了提高模型的性能，利用Python中的Scikit-Optimize库对5种集成树模型进行贝叶斯优化。5种模型的超参数优化范围见表2。

表2 模型的超参数优化范围

Table 2 Hyperparameter optimization range of the model

模型	超参数	优化范围
RF	回归树数量	（10，100）
RF	树的最大深度	（1，10）
ET	回归树数量	（10，100）
ET	树的最大深度	（1，10）
AdaBoost	提升迭代次数	（10，100）
AdaBoost	学习率	（0.01，0.20）
GBDT	提升迭代次数	（10，100）
	学习率	（0.01，0.20）
	树的最大深度	（1，10）
CatBoost	提升迭代次数	（100，1 200）
CatBoost	学习率	（0.01，0.20）

新窗口打开| 下载CSV

在进行集成树模型的优化之前，首先要明确定义目标函数。目标函数的选择直接影响到模型的优化过程和性能评估。本研究选用平均绝对误差（MAE）作为回归任务的损失函数。MAE是一种广泛应用的损失函数，通过计算预测值与真实值之间绝对误差的平均值来度量模型的预测性能，其具体表达式为

$M A E (y, \hat{y}) = \frac{1}{n} \sum_{i = 0}^{n - 1} |y_{i} - {\hat{y}}_{i}|$

（2）

式中： $y_{i}$ 和 ${\hat{y}}_{i}$ 分别为数据的真实值和预测值； $n$ 为数据集中样本的数量。

平均绝对误差越小，模型的准确率越高。在五折交叉验证中，将平均绝对误差作为目标函数的输出，有助于综合衡量模型在不同数据子集上的表现，进而提高对模型泛化性能的准确估计。当目标函数值最小时，即可获得该模型的最优超参数。

概率代理模型是贝叶斯优化（BO）算法进行优化的关键组成部分，准确地选择概率代理模型会显著提高算法的优化性能。本研究的概率代理模型采用高斯过程回归，采集函数采用组合策略GP-Hedge。高斯过程回归假设任意有限个输入点的函数值服从多元高斯分布，使其能够在数据点之间进行平滑插值，并自然地提供预测不确定性。相比其他概率代理模型，高斯过程回归在非参数建模、处理不确定性量化和正则化方面具有显著优势。高斯过程回归的关键是选择一个合适的核函数，为此，本文选择Matern核函数，并通过最大化对数边缘似然的方式，自动调整核函数内的超参数，以更准确地反映数据的潜在结构。图7和图8为贝叶斯优化过程中5种模型（预测c和φ值）的目标函数随迭代次数的变化趋势。经过100次迭代后，贝叶斯优化（BO）算法会根据目标函数的最小值返回模型的最优超参数组合，5种模型的最优超参数见表3。值得注意的是，通过贝叶斯优化后的模型在训练集上表现出较好的预测性能，各模型的训练集决定系数R²均大于0.90。这表明BO算法的应用使得模型性能在训练集上得到显著提升，为其在实际应用中的泛化能力提供了有力支持。

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 不同模型的迭代收敛图（预测c值）

（a） RF模型；（b） ET模型；（c） AdaBoost模型；（d） GBDT模型；（e） CatBoost模型

Fig.7 Iterative convergence diagram of different models （predicted c value）

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 不同模型的迭代收敛图（预测φ值）

（a） RF模型；（b） ET模型；（c） AdaBoost模型；（d） GBDT模型；（e） CatBoost模型

Fig.8 Iterative convergence diagram of different models （predicted φ value）

表3 模型的最优超参数

Table 3 Optimal hyperparameters of the models

模型	超参数	最佳值（预测c）	最佳值（预测φ）
RF	回归树数量	57	100
RF	树的最大深度	10	8
ET	回归树数量	95	92
ET	树的最大深度	10	10
AdaBoost	提升迭代次数	100	92
AdaBoost	学习率	0.198	0.2
GBDT	提升迭代次数	89	100
	学习率	0.103	0.094
	树的最大深度	5	5
CatBoost	提升迭代次数	1 200	892
CatBoost	学习率	0.076	0.045

新窗口打开| 下载CSV

4 结果与讨论

4.1 模型评估

为了更加直观地呈现5种模型在测试样本上的表现，绘制了预测值与真实值之间的散点图（图9）。图中横轴表示真实值，纵轴表示预测值，每个散点代表一个测试样本。若预测值与真实值相等，散点将精准地落在斜率为1的红线上；散点距离红线越近，表明相应的预测值与真实值越接近。图9中的散点均密集地分布在斜率为1的红线及其两侧，说明提出的集成树模型在测试集上具有较好的预测结果。

图9

新窗口打开| 下载原图ZIP| 生成PPT

图9 不同模型预测值与真实值之间的散点图

Fig.9 Scatter plot between predicted value and true value of different models

本研究综合考虑4种常用的回归模型评价指标：决定系数（R²）、均方根误差（RMSE）、平均绝对误差（MAE）和方差贡献率（VAF）。评价指标可由图10计算，一般来说，R²和VAF越接近于1，RMSE和MAE值越低，模型的性能越好。

图10

新窗口打开| 下载原图ZIP| 生成PPT

图10 评价指标计算示意图

注： $\bar{y}$ 为真实值的平均值，var（.）为方差

Fig.10 Schematic diagram of evaluation index calculation

此外，引入由R²、RMSE、MAE和VAF组成的排名系统，实现对5种模型的综合排名，如表4所示。每个性能指标均按类别赋分，最佳指标赋予最高的分数，最高分数由参与排名的指标数量决定。性能指标全部赋分后，分别对每个模型的性能指标得分求和。模型的最终得分是训练集和测试集的分数之和，可以全面地反映模型的拟合性能和泛化性能。模型的最终得分越高，综合性能越好。绘制各模型的最终得分图（图11），优化后的ET模型在预测c和φ时均展现了最优的性能。

表4 模型的性能指标及得分

Table 4 Performance indicators and scores of the models

预测参数	模型	数据集	R²		MAE		RMSE		VAF/%		最终得分
预测参数	模型	数据集	数值	得分	数值	得分	数值	得分	数值	得分	最终得分
c/MPa	RF	训练集	0.998	2	0.124	2	0.189	2	99.861	2	16
	RF	测试集	0.990	2	0.387	2	0.524	2	99.056	2	16
	ET	训练集	0.999	5	0.018	5	0.032	3	99.996	3	36
	ET	测试集	0.993	5	0.309	5	0.450	5	99.306	5	36
	AdaBoost	训练集	0.982	1	0.572	1	0.672	1	98.304	1	8
	AdaBoost	测试集	0.979	1	0.612	1	0.764	1	98.060	1	8
	GBDT	训练集	0.999	5	0.021	3	0.030	4	99.997	4	30
	GBDT	测试集	0.992	4	0.336	3	0.471	4	99.245	3	30
	CatBoost	训练集	0.999	5	0.020	4	0.025	5	99.998	5	33
	CatBoost	测试集	0.991	3	0.333	4	0.488	3	99.249	4	33
φ/ （°）	RF	训练集	0.992	2	0.232	2	0.362	2	99.292	2	20
	RF	测试集	0.964	3	0.662	3	0.902	3	96.534	3	20
	ET	训练集	0.999	5	0.053	5	0.085	5	99.961	5	39
	ET	测试集	0.970	5	0.612	4	0.823	5	97.058	5	39
	AdaBoost	训练集	0.904	1	1.026	1	1.327	1	90.515	1	8
	AdaBoost	测试集	0.892	1	1.284	1	1.566	1	89.292	1	8
	GBDT	训练集	0.999	5	0.063	4	0.087	4	99.959	4	34
	GBDT	测试集	0.966	4	0.579	5	0.873	4	96.684	4	34
	CatBoost	训练集	0.998	3	0.136	3	0.167	3	99.849	3	20
	CatBoost	测试集	0.962	2	0.702	2	0.919	2	96.349	2	20

新窗口打开| 下载CSV

图11

新窗口打开| 下载原图ZIP| 生成PPT

图11 各模型的最终得分图

Fig.11 Final score diagram of each model

此外，将已发表的抗剪强度参数预测结果（Shahani et al.，2022）与本文提出的最优模型进行比较，如表5所示。通过比较不同模型的预测精度，可以更好地评估本文模型ET的优越性。由表5可知，ET模型在预测c值和φ值的R²分别达到0.993和0.970，显著优于其他模型。相比套索回归（LR）和岭回归（RR）等单一模型，ET模型在捕捉复杂非线性关系方面表现更加出色。

表5 ET模型预测结果与其他模型的对比

Table 5 Comparison of ET model prediction results with other models

模型	输入参数	是否验证	R²（预测c）	R²（预测φ）
LR	V_P、ρ、UCS、BTS	否	0.928	0.606
RR	V_P、ρ、UCS、BTS	否	0.961	0.822
DT	V_P、ρ、UCS、BTS	否	0.934	0.607
SVM	V_P、ρ、UCS、BTS	否	0.977	0.916
ET	V_P、ρ、UCS、BTS	是	0.993	0.970

新窗口打开| 下载CSV

4.2 敏感性分析

集成树模型在预测时具有较高的精度，但其内部关系复杂，降低了模型的可解释性。因此，本文引入SHAP（Shapley Additive Explanation）解释方法，该方法由Lundberg et al.（2017）基于联盟博弈论的最佳Shapley值提出的。SHAP计算每个变量对预测的贡献，并通过贡献值加和来解释模型，贡献值可能为正值或负值，正值会提高预测结果，负值则降低预测结果。这种可加性消除了模型结构不同带来的解释性差异。SHAP对模型的解释可表示为

$g (z^{'}) = ϕ_{0} + \sum_{j = 1}^{M} ϕ_{j} z_{j}^{'}$

（3）

式中： $g (z^{'})$ 为 $z^{'}$ 的解释函数； $z^{'} \in {\{0,1\}}^{M}$ 为联盟向量，当输入1时表示特征值“存在”，输入0则表示特征值“不存在”；M为变量的数量； $ϕ_{0}$ 为模型在数据集上的预测均值， $ϕ_{j} \in ℝ$ 是变量 $j$ 的变量归因Shapley值。

优化后的ET模型性能最优，使用SHAP对其进行解释，绘制SHAP概要图（图12）。SHAP概要图揭示了模型中的输入变量对预测结果的贡献程度。在SHAP概要图中，横坐标轴表示变量的平均绝对SHAP值，纵坐标轴表示输入变量，图中的每个点代表一个样本，点的颜色表示变量值的大小，颜色从红色到蓝色代表变量的数值从高到低，SHAP值相同的点沿纵坐标轴方向堆叠。输入变量在纵坐标轴上按重要性程度从上到下依次排列，可以看出ET模型在预测c值时，变量的重要性排序为V_P>BTS>UCS>ρ，ET模型在预测φ时，变量的重要性排序为ρ>V_P>UCS>BTS。

图12

新窗口打开| 下载原图ZIP| 生成PPT

图12 SHAP概要图

Fig.12 SHAP summary diagram

4.3 工程验证及GUI开发

为验证岩石黏聚力和内摩擦角预测模型的准确性，在金川二矿区和四矿区的不同地点采集14组岩块，分别加工成Φ50 mm×100 mm、Φ50 mm×25 mm和50 mm×50 mm×50 mm共3种规格的岩样。采用HS-YS4A型岩石声波参数测试系统测量岩样的V_P，使用高精度电子天平和体积测量设备测定岩样的ρ。采用INSTRON 1346万能材料试验机对Φ50 mm×100 mm规格的岩样进行单轴压缩试验，记录岩样的破坏载荷并计算UCS。使用INSTRON 1342低周疲劳试验机对Φ50 mm×25 mm规格的岩样进行巴西劈裂拉伸试验，记录劈裂载荷并计算BTS。使用INSTRON 1346万能材料试验机对50 mm×50 mm×50 mm规格的岩样进行变角度剪切试验，测定不同剪切角度下的破坏载荷，计算岩石的黏聚力（c）和内摩擦角（φ）。图13所示为3种岩石基本力学试验。分别测得每组岩样的V_P、ρ、UCS、BTS、c和φ值，结果如表6所示。

图13

新窗口打开| 下载原图ZIP| 生成PPT

图13 岩石基本力学参数试验

Fig.13 Tests on basic mechanical parameters of rocks

表6 岩样物理力学参数测试结果

Table 6 Test results of physical and mechanical parameters of rock samples

编号	V_P	ρ	UCS	BTS	c	φ
1	4 204	2.86	53.4	1.16	11.1	30.17
2	4 544	2.88	25.3	3.11	10.8	30.40
3	3 489	2.63	26.8	2.14	9.68	30.57
4	5 102	2.61	44.7	2.55	11.6	32.48
5	3 247	2.7	42	4.94	9.48	30.52
6	4 138	2.83	65	3.16	14.6	34.92
7	4 861	2.73	71.3	2.08	11.7	33.68
8	4 965	2.82	61.2	1.81	11.6	34.50
9	6 184	2.78	59.6	1.41	16.4	31.70
10	4 721	2.73	47.1	8.29	11.8	28.38
11	4 385	2.74	45.5	9.83	13.4	28.58
12	5 326	2.64	50.4	7.82	12.6	32.00
13	6 569	2.76	72.7	6.47	19.1	36.35
14	4 439	2.94	102	7.91	14.2	30.70

新窗口打开| 下载CSV

将这些数据输入到开发的ET模型中，得到岩石的黏聚力（c）和内摩擦角（φ）预测值。图14所示为预测值与真实值的对比情况。由图14（a）可以看出，ET模型在预测c值时的R²为0.833，MAE为0.684，RMSE为1.041，VAF为88.62%，表明模型在预测岩石c值方面具有较高的准确性。具体来说，R²值为0.833，表明预测值较接近真实值；较低的MAE和RMSE值也表明预测误差较小；VAF值为88.62%，表明模型能够解释大部分数据的变异性，预测性能较为优异。由图14（b）可以看出，ET模型在预测φ值时的R²为0.817，MAE为0.802，RMSE为0.975，VAF为81.76%，表明模型在预测岩石φ值时也具有较高的准确性。由图14可以看出，部分预测结果存在较大离散性，尤其是第10组和第11组的预测值（c和φ）明显高于真实值。分析其原因，结合岩样物理力学参数测试结果，可以发现第10组和第11组样本的BTS显著高于其他组样本。进一步观察试验情况，发现这2组样本为混合岩，岩性复杂，内部含有多种矿物组分。同一岩块中不同试样的强韧矿物含量差异较大，导致其BTS、UCS、c和φ值的差异显著，因此在预测c和φ值时表现出较大的离散性。在今后的研究中，可以进一步优化采样和试验方法，确保样本的均质性，减少由于岩石内部结构差异导致的测试结果变异。总体而言，ET模型在新数据集上表现出较好的适应性，能够有效地应用于实际工程中。

图14

新窗口打开| 下载原图ZIP| 生成PPT

图14 金川矿区黏聚力（c）和内摩擦角（φ）预测结果

Fig.14 Prediction results of cohesion（c） and internal friction angle（φ） in Jinchuan mining area

为了便于模型在现场的应用，开发了一个图形用户界面，如图15所示。该界面设计简单、易操作，可通过该界面快速输入现场数据，并获得实时的岩石力学参数估算结果，适用于各种隧道工程、铁路工程和公路工程等项目的前期阶段。

图15

新窗口打开| 下载原图ZIP| 生成PPT

图15 图形用户界面

Fig.15 Graphical user interface

5 结论

通过室内试验获取岩石抗剪强度参数（c和φ）繁琐且不经济，本研究采用5种集成树算法，以V_P、ρ、UCS和BTS作为输入参数，构建岩石抗剪强度参数的智能预测模型，并通过贝叶斯优化算法提高模型的预测精度。对优化后的模型进行性能评估，并通过敏感性分析获得各输入参数对预测结果的影响程度。主要结论如下：

（1）综合考虑R²、RMSE、MAE和VAF这4种评价指标，并引入排名系统对优化后的各个模型在训练集和测试集的预测性能进行评估分析。ET模型在预测c值和φ值时均是最优模型，其预测c值的R²为0.993，预测φ值的R²为0.97。该集成树模型可用于岩石工程现场快速获取岩石的c值和φ值，有助于岩体工程设计及稳定性评价。

（2）引入SHAP对优化后的ET模型进行解释，得到各变量的重要性及其对预测结果的影响。结果表明，预测c值时，模型中的变量重要性排序为V_P>BTS>UCS>ρ；而预测φ值时，模型中的变量重要性排序为ρ>V_P>UCS>BTS。

（3）通过采集现场岩样并进行室内试验，获取了金川矿区岩石的物理力学特性。利用构建的模型成功预测了金川矿区岩石的c、φ值，从而验证了该模型的实用性。同时，开发了图形用户界面，便于工程技术人员进行现场应用。

（4）本文使用4种岩石物理力学参数来预测c、φ值，但是其他岩石参数也可能与c、φ值有相关关系。因此，今后可考虑更多的输入变量，提高预测模型的准确性。此外，本文采用的训练数据多为硬岩数据，在软岩的抗剪强度参数预测上准确率会有一定程度的降低。未来，可以收集更多不同岩石种类的数据，以扩充数据库，提高模型的稳健性。

http://www.goldsci.ac.cn/article/2024/1005-2518/1005-2518-2024-32-5-847.shtml

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[]

Armaghani

D J

， Hajihassani

， Bejarbaneh

B Y

，et al，2014.

Indirect measure of shale shear strength parameters by means of rock index tests through an optimized artificial neural network

［J］.Measurement，55：487-498.