基于非均衡数据的ADASYN-CatBoost测井岩性智能识别——以胶西北招贤金矿床为例

图1 面向非平衡测井数据的岩性智能识别流程图

Fig.1 Flow chart of intelligent lithology identification for unbalanced logging data

考虑到本研究针对的是小样本数据，因此将预处理后的数据随机划分为训练集（80%）和测试集（20%）。首先，基于训练集利用网格搜索结合十折交叉验证算法（Zhang et al.，2015；Zhao et al.，2019）进行参数寻优，网格搜索生成具有连续候选参数值的多维网格，再利用不同组合的可调参数对模型进行训练，通过十折交叉验证选择性能最优的超参数建立CatBoost岩性分类模型；然后，通过测试集上的准确率、精确率、召回率和F1分数等指标对模型性能进行评估；最后，借助特征重要性和部分依赖图进行模型解译，结合岩芯岩性资料对比验证，探索模型内在决策机制。

1.1 基于ADASYN的非平衡数据处理

ADASYN算法对于每个少数类样本，基于其k个最近邻样本中多数类样本的数量，采用SMOTE算法按比例创造新样本，为不同的少数类样本构造新样本（He et al.，2008），如图2所示。

图2

图2 ADASYN算法示意图（Elnahas et al.，2021）

Fig.2 Schematic diagram of ADASYN algorithm （Elnahas et al.，2021）

ADASYN算法步骤如下：对于给定训练集 $T = \{(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{m}, y_{m})\}$ ，定义 $m_{s}$ 和 $m_{l}$ 分别为少数类样本和多数类样本。

Step 1：计算不平衡度 $d = m_{s} / m_{l}$ ，d∈（0，1］。

若 $d < d_{t h}$ （ $d_{t h}$ 是不平衡度的阈值），则对 $m_{s}$ 进行样本合成，反之则不需要。

Step 2：计算需要合成的少数类样本数量

$G = (m_{l} - m_{s}) \times β$

式中： $β$ ∈（0，1］，当 $β$ =1时，合成样本后，多数类样本数量与少数类样本数量正好相等。

Step 3：对于每个小类样本 $x_{i}$ ，利用欧式距离计算找出其K个近邻样本，记 $∆_{i}$ 为近邻样本中多数类样本的数量，记比例 $r_{i} = ∆_{i} / K$ 。

Step 4：对于每个少数类样本所对应的 $r_{i}$ ，计算 ${\hat{r}}_{i} = r_{i} / \sum_{i = 1}^{m} r_{i}$ ， ${\hat{r}}_{i}$ 即为该少数类样本的权重；对于每个少数类样本 $x_{i}$ ，计算其所需的合成样本的数量 $g_{i} = {\hat{r}}_{i} \times G$ 。

Step 5：对于每个需要合成样本的少数类样本 $x_{i}$ 的K个近邻样本，选择一个方向根据SMOTE算法（陈钢花等，2019）生成样本，直至合成的样本数量满足 $g_{i}$ 。

为解决模型对于非均衡数据集中少数类样本学习能力不足的问题，ADASYN引入权重机制，根据少数类样本在原始数据集中的密度分布进行加权生成合成样本，少数类样本周围的多数类样本越多则合成少数类样本时的权重越大。通过ADASYN进行非均衡数据处理后少数类样本的数量增加，能够取得更好的模型分类效果。通过增强模型在少数类别样本上的学习效果，进一步改善模型对各种岩性的分类性能，从而提高岩性智能分类模型的学习能力。

1.2 CatBoost机器学习算法

CatBoost是在GBDT框架下提出的一种改良的Boosting算法。相比传统的GBDT算法，CatBoost考虑了特征之间的相互作用，并有效避免了模型的过拟合问题（张旭春，2021），主要从以下3个方面进行了改进。

（1）类别型特征的处理

类别型特征指类别特征不是数值型的，而是离散型的。对于给定训练集： $S = \{(x_{1}, y_{1})$ ， $(x_{2}, y_{2})$ ， $\dots, (x_{N}, y_{N})\}$ ， $x_{i}$ 包含数值型特征和类别型特征，CatBoost可将类别型特征转换为数值。具体处理方法如下：

Step 1：对输入的样本集合随机排序，并生成多组随机排列；

Step 2：给定一个序列，针对每个例子，对于相同类别的例子计算其平均样本值；

Step 3：将所有的分类特征值转化为数值结果，方法如下：

记 $σ = (σ_{1}, σ_{2}, \dots, σ_{n})$ 为一个排列，对例子 $σ_{p}$ 所代表的样本 $(x_{σ_{p}, k}, Y_{σ_{p}})$ ，则 $x_{σ_{p}, k}$ 可表示为

$x_{σ_{p}, k} = \frac{\sum_{j = 1}^{p - 1} [x_{σ_{j}, k} = x_{σ_{p}, k}] Y_{σ_{j}} + a \cdot P}{\sum_{j - 1}^{p - 1} [x_{σ_{j}, k} = x_{p, k}] + a}$

（1）

式中： $k$ 为样本所属的类别；P为先验；a为先验的权重（a>0），添加先验有助于减小从低频类别获得的噪声。

通过对类别特征进行处理，CatBoost将包含类别型特征和数值型特征的训练集统一为数值型特征，增强模型对特征与目标变量之间非线性关系的学习能力。

（2）特征组合

CatBoost算法中，在树的第一次分割时，不考虑任何组合，但是在树的第二次分割时，会将树中所有的特征结合。通过对特征进行组合，CatBoost算法能够进一步学习特征之间的非线性关系，特征组合后可视为模型新的特征，利用特征之间的联系丰富了模型的特征维度，进一步表达数据的特性，提高岩性识别的准确性。在组合过程中，CatBoost支持对新组合的类别型特征进行转变，使其成为数值型特征。

（3）克服梯度偏差

由于传统的梯度提升算法在模拟模型的梯度时每一步都是基于相同的数据集来估计梯度，并基于此梯度进行训练得到基学习器，这种方法会使逐点梯度产生估计偏差，最终导致模型过拟合。

在克服梯度偏差处理中，CatBoost算法提出使用Ordered boosting方法改变传统算法中的梯度估计方式，CatBoost算法是通过对每个样本 $x_{i}$ ，训练一个单独的模型 $M_{i}$ ，训练模型 $M_{i}$ 的数据是不包含 $x_{i}$ 的训练集，然后使用模型 $M_{i}$ 对样本的梯度进行估计，最后使用此梯度训练基学习器得到最终模型。利用该算法，能够得到梯度的无偏估计，降低估计偏差的影响，从而提高模型在岩性识别中的泛化能力。

CatBoost算法不仅提高了处理类别型特征的效率，而且获得的模型能够更好地避免过拟合现象的发生，使得最终得到的岩性识别模型更具有泛化性。因此，利用CatBoost分类器进行岩性识别，从而解决复杂地质条件下岩性与测井曲线之间的强非线性关系。

1.3 岩性分类识别评价方法

针对岩性分类问题，岩性识别结果最终被划分为4类：真正类（TP）、真负类（TN）、假正类（FP）和假负类（TN）（Tripathy et al.，2016）。在混淆矩阵的基础上，可以计算出准确率、精确率、召回率和F1分数。

本研究用准确率（Accuracy）表示所有预测正确的样本占总样本的比例，用精确率（Precision）表示正确预测为正类的样本占全部预测为正类的样本的比例，用召回率（Recall）表示正确预测为正类的样本占全部实际为正类的样本的比例。一个稳定的岩性智能识别模型应同时最大化地提高精确率和召回率，F1分数综合了精确率和召回率，因此F1分数也被选为重要的评估指标。最终通过岩芯岩性的比较，对分类结果进行验证，同时借助特征重要性分析和部分依赖图进行模型解译，探讨测井响应特征对岩性分类的影响。

在基于CART的集成模型中，特征重要性是通过平均每个决策树中每个特征的重要性来计算的。在本研究中，基尼系数被用作判断特征重要性的指数。可定义为

$G i n i (p) = \sum_{k = 1}^{K} p_{k} (1 - p_{k}) = 1 - \sum_{k = 1}^{K} p_{k}^{2}$

（2）

式中： $K$ 为输出类别数； $p_{k}$ 为样本属于k类的概率。

所有测井响应特征的总重要性等于100%，其值以相对方式来衡量。在CatBoost模型的训练过程中，每个特征都会根据其在建模中的重要性给出一个数值分数（Zheng et al.，2020；Wang et al.，2021），用来评估每个输入特征对目标变量的贡献。相对重要性越高，特征对预测函数的贡献就越大。每个测井响应特征的量化有助于增强模型的可解释性，以及更好地理解测井响应特征是如何影响岩性分类结果的。CatBoost模型可对每个测井特征的重要性进行评估和排序。

部分依赖图是一种用于黑盒机器学习模型输出的可视化技术，可以解释为预期目标响应作为“目标”特征的函数（Zhu et al.，2020），显示预测值如何随着输入变量的变化而变化。部分依赖图对可视化变量之间复杂类型的交互作用具有指示意义。本研究中采用部分依赖图显示岩性分类结果与测井响应特征之间的关系，将部分依赖函数（Friedman，2001）与CatBoost分类算法相结合，估计岩性识别对测井特征的部分依赖程度，用来解释黑盒模型（Elith et al.，2008）。

2 岩性识别实例分析

2.1 实例测井数据处理

本研究实例数据来源于胶西北招贤金矿床。胶西北招贤金矿床位于焦家断裂带中段西部，研究区岩性较为复杂（图3）。根据研究区钻孔柱状图，可将区内岩性细分为10种类别，主要岩性为胶东群片麻岩、二长花岗岩、钾化花岗质碎裂岩、绢英岩化花岗岩和黄铁绢英岩化花岗岩，其中黄铁绢英岩化花岗质碎裂岩和黄铁绢英岩化碎裂岩为赋矿岩性。

图3

图3 胶西北招贤金矿床地质简图（修改自Yang et al.，2016）

1.第四系；2.郭家岭序列；3.玲珑序列；4.马连庄序列；5.破碎蚀变带；6.断裂；7.金矿床；8.研究区

Fig.3 Geological map of Zhaoxian gold deposit in Northwest Jiaodong （modified after Yang et al.，2016）

由于金属矿床地质构造复杂，不同岩性物理性质差异较大，考虑到不同岩石特征导致岩性的电阻率、自然伽马和自然电位特征差异显著，本研究选取电阻率、自然伽马和自然电位作为测井响应特征数据进行岩性识别，图4显示几种岩性对应的测井特征曲线。由于作者团队曾对该实例数据的归一化处理和相关性影响进行了分析（Zou et al.，2021），因此本文将不再复述，重点针对样本数据的不均衡性进行处理。

图4

图4 测井曲线和观察的岩性

1.黄铁绢英岩化花岗质碎裂岩；2.绢英岩化花岗质碎裂岩；3.钾化绢英岩化花岗质碎裂岩

Fig.4 Logging curves and observed lithology

表1总结了实例数据中10种岩性的测井响应特征，将上述10种目标岩性依次按顺序编码，共获得2 609条数据（表1），然后将得到的数据转换成一个2 609行4列的矩阵。前3列代表测井特征，最后1列代表岩性编码。由表1可知，不同岩性对应的测井特征差异明显，各岩性类别对应的样本数详见表2。

表1 部分测井数据训练集

Table 1 Part of logging data training set

电阻率/（Ω·m）	自然伽马/API	自然电位/mV	岩性	编码
84.6	30.8	23.04	钾化绢英岩化花岗质碎裂岩	10
79.2	54.6	23.10	黄铁绢英岩化碎裂岩	9
90	53.2	6.09	绢英岩化花岗质碎裂岩	4
76.5	40.6	13.94	绢英岩化花岗岩	6
99	23.8	27.70	中粒含黑云二长花岗岩	3
︙	︙	︙	︙	︙
94.5	43.4	19.03	含黑云二长花岗岩	7
83.7	32.2	16.97	钾化绢英岩化花岗质碎裂岩	10
1 584.9	39.2	4.74	钾化花岗质碎裂岩	2
75.6	39.2	12.01	绢英岩化花岗岩	6
93.6	54.6	21.97	中粒含黑云二长花岗岩	3

表2 实例测井数据中各岩性类别对应的样本统计

Table 2 Sample statistics for each lithological category in example logging data

岩性	类别	样本数/个
岩性	类别	处理前	ADASYN处理后
总计		2 609	10 540
含角闪黑云英云闪长岩质片麻岩	1	83	1 047
钾化花岗质碎裂岩	2	173	1 038
中粒含黑云二长花岗岩	3	1 045	1 045
绢英岩化花岗质碎裂岩	4	570	1 094
钾化含黑云二长花岗岩	5	27	1 047
绢英岩化花岗岩	6	217	1 038
含黑云二长花岗岩	7	140	1 072
黄铁绢英岩化花岗质碎裂岩	8	149	1 073
黄铁绢英岩化碎裂岩	9	80	1 050
钾化绢英岩化花岗质碎裂岩	10	125	1 036

由表2可知，不同岩性对应的样本数目很不均衡，如钾化含黑云二长花岗岩（第5类）的样本量过小，易导致测井响应特征及岩性不能完全拟合，会影响机器学习的岩性分类识别结果，因此需针对数据的非均衡性进行有效处理。考虑本研究的实例数据为小样本数据，在数据归一化和特征相关性分析的基础上，采用ADASYN方法进行处理。经过处理后的数据中各岩性类别的样本数目达到均衡，共有10 540条数据。

2.2 岩性识别模型构建与评价

采用CatBoost算法建立测井响应特征和岩性类别之间的非线性关系，算法通过Python编程实现。在建立机器学习模型的过程中，利用验证曲线确定参数区间，然后采用网格搜索算法结合十折交叉验证算法进行参数调优，得到各模型的最优超参数。

图5所示为CatBoost算法验证曲线，可见学习率（learning_rate）、树的深度（depth）、最大迭代次数（iterations）和L2正则化参数（l2_leaf_reg）的网格搜索范围。在模型分数最高的点附近设置搜索区间，采用网格搜索对模型最优参数组合进行寻找，确定该参数组合为最优参数组合，得到最佳参数组合为0.1、10、300和1，交叉验证准确率为92.31%。表3同时显示GBDT、XGBoost和LightGBM模型的最佳参数。其中，GBDT模型中对学习率（learning_rate）、弱学习器个数（n_estimators）、叶子节点最小样本数（min_samples_leaf）和树的最大深度（max_depth）进行参数调优，LightGBM模型中对学习率（learning_rate）、弱学习器的个数（n_estimators）、树最大深度（max_depth）、树的叶子节点个数（num_leaves）和叶子节点最小数据量（min_data_in_leaf）进行调优。

图5

图5 CatBoost验证曲线图

Fig.5 CatBoost validation curves

表3 模型的超参数数值范围及其最优解

Table 3 Numerical range of hyperparameter of the model and its optimal solution

分类器	超参数	搜索范围	最优参数
GBDT	学习率	0.000001~0.5	0.1
	弱学习器个数	50~130	119
	叶子节点最小样本数	5~50	10
	树的最大深度	2~30	25
LightGBM	学习率	0.001~0.800	0.2
	弱学习器个数	50~130	102
	树的最大深度	1~50	24
	树的叶子节点个数	15~60	46
	叶子节点最小数据量	5~55	30
CatBoost	学习率	0.001~0.800	0.1
	树的深度	3~17	10
	最大迭代次数	50~500	300
	L2正则化参数	1~20	1

为了验证采用ADASYN进行非均衡样本数据处理的效果，比较样本数据均衡化处理对分类模型的影响，将基于ADASYN方法数据处理后建立的ADASYN-GBDT、ADASYN-LightGBM和ADASYN-CatBoost岩性分类模型与针对每种算法未考虑非均衡数据处理建立的模型进行比较。图6所示为上述几种分类模型在训练集和测试集上的准确率。由图6可知，岩性分类模型的测试性能与训练性能接近，验证了测试集分类结果的有效性。表4为几种模型在测试集上的准确率、召回率和F1分数。结果表明，ADASYN-CatBoost模型的岩性分类性能优于其他分类模型，准确率、召回率和F1分数分别达到0.9821、0.9820和0.9820，模型评价排序依次为ADASYN-CatBoost>ADASYN-LightGBM>ADASYN-GBDT>CatBoost>LightGBM>GBDT。分析结果表明，经过样本数据均衡化处理后，6种模型的准确率均得到提升，在本实例中，ADASYN-CatBoost模型是岩性识别最有效的方法，更加有利于测井解释。

图6

图6 几种模型训练集和测试集的准确率对比

Fig.6 Comparison of accuracy of the training and test sets of several models

表4 测试集上岩性识别精确率、召回率和F1分数（加权平均）

Table 4 Precision，recall rate and F1 score （weighted average） of lithology identification on the test set

分类器	精确率	召回率	F1分数
GBDT	0.9355	0.9349	0.9327
LightGBM	0.9561	0.9554	0.9552
CatBoost	0.9503	0.9600	0.9600
ADASYN-GBDT	0.9472	0.9469	0.9466
ADASYN-LightGBM	0.9695	0.9695	0.9695
ADASYN-CatBoost	0.9821	0.9820	0.9820

经过ADASYN处理之后建立的6种岩性分类器的混淆矩阵如图7所示，其中对角线为每个岩性类别中被正确分类的比例。结果显示，ADASYN-CatBoost分类器的岩性识别性能明显高于其他分类器。在5个分类器中，ADASYN-CatBoost分类器的性能最佳，该方法成功地从测井资料中识别了至少98.5%的岩性，取得理想的分类效果。

图7

图7 测试集的岩性识别混淆矩阵图

Fig.7 Confusion matrix diagram of lithology identification of test set

2.3 结果验证与解译分析

将4种分类器得到的岩性识别结果与岩心岩性进行对比（图8），进一步验证了几种分类器岩性分类识别结果的有效性。由图8可知，所有模型均可根据测井响应的差异区分10种岩性，但根据岩芯的厚度，区分稍有差异。对于所有岩性，ADASYN-CatBoost的岩性识别结果与岩芯资料的一致性最佳，ADASYN-CatBoost分类器在识别黄铁绢英岩化花岗质碎裂岩（第8类）和黄铁绢英岩化碎裂岩（第9类）时，其效果优于其他分类器。分析原因可能如下：（1）CatBoost模型通过迭代学习方法根据预测的岩性调整权重，提高了预测精度；（2）与其他分类器相比，CatBoost模型自动对一些离散特征进行组合，生成内部特征作为模型的训练，提高了岩性分类的效率。

图8

图8 岩性识别结果验证图

1.含角闪黑云英云闪长岩质片麻岩；2.钾化花岗质碎裂岩；3.中粒含黑云二长花岗岩；4.绢英岩化花岗质碎裂岩；5.钾化含黑云二长花岗岩；6.绢英岩化花岗岩；7.含黑云二长花岗岩；8.黄铁绢英岩化花岗质碎裂岩；9.黄铁绢英岩化碎裂岩；10.钾化绢英岩化花岗质碎裂岩

Fig.8 Verification diagram of lithological identification

results

分析CatBoost模型的特征重要性排序（表5），结果表明3个测井响应特征对岩性分类贡献的重要性排序依次为电阻率测井（RL）、自然电位测井（SP）和自然伽马测井（GR）。特征重要性排序体现了电阻率、自然伽马和自然电位参数对岩石岩性的综合响应与区分，实例研究结果表明特征重要性排序与研究区的主要岩性及其分布特点密切相关。从研究区岩性分布来看，10种岩性电阻率特征存在显著差异，而断裂带和接触带中的部分岩层与其他致密岩层自然电位特征的区别较为显著，只有少部分岩性的放射性元素含量及自然伽马特征变化较大。具体分析如下：

表5 CatBoost模型的特征重要性排序结果

Table 5 Ranking results of feature importance for CatBoost model

排序	特征	CatBoost
1	电阻率测井	52.4%
2	自然电位测井	28.9%
3	自然伽马测井	18.7%

（1）电阻率作为最重要的测井响应特征，能够有效捕获电阻率异常，最大程度地区分研究区内具有不同电阻特征的岩石岩性、结构和构造差异。这与研究区内分布有高阻特征的二长花岗岩和花岗闪长岩，高中阻特征的蚀变花岗岩，低阻带中局部高阻特征的蚀变带，以及具有最低阻特征的变辉长岩和黑云母片岩有关。

（2）自然电位通常是由于离子扩散和吸附作用产生的，氧化还原反应和压差也会导致自然电位。一般而言，研究区断裂带和接触带等岩层富水位置会堆积正离子，致密的岩石等贫水位置会堆积负离子，可通过自然电位测井进行识别。

（3）不同岩石中放射性元素的含量存在一定的差异，进而导致其自然伽马不同。由于自然伽马的抗干扰性能强，因此可以利用这一特征划分岩性。根据放射性强度能够区分出研究区整体强度低的片麻岩，强度较高且曲线平稳的二长花岗岩，而黄铁绢英岩化花岗岩自然伽马曲线受蚀变影响，整体偏低，但起伏较大且变化剧烈，也容易区分。

部分依赖图显示单一特征或特征组合如何影响模型的分类性能。以赋存矿体的黄铁绢英岩化花岗质碎裂岩（类别8）为例，图9显示该类的部分依赖图，大于0表示“属于该类”，小于0表示“不属于该类”，数值大小表示对划分为该类的贡献程度。由图9可知：（1）电阻率测井值越大，对划分为黄铁绢英岩化花岗质碎裂岩（类别8）的贡献越大。当电阻率测井增加至79 Ω·m时，继续增加电阻率测井值对岩性分类贡献不大。（2）自然电位测井值越大，对划分为类别8的贡献越大。当自然电位测井值增加至15 mV时，继续增加自然电位测井值对岩性分类贡献不大。当自然电位测井值从18 mV增加至20 mV时，对岩性分类的贡献先减小后增大。当自然电位测井值达到20 mV时，继续增加自然电位测井值对岩性分类的贡献不再有效。（3）自然伽马测井值越大，对划分为类别8的贡献越大。当自然伽马测井值增加至22 API时，继续增加自然伽马测井值对岩性分类贡献不大。

图9

图9 单个测井特征与岩性的部分依赖图

Fig.9 Partial dependence diagram of single logging characteristics and lithology

图10为2个特征的任意组合对分类结果的影响。当电阻率测井值小于76 Ω·m，自然伽马测井值低于20 API时，模型的分类性能最佳。同样，当自然伽马测井值低于20 API，自然电位测井值高于20 mV时，该模型具有良好的识别效果。此外，当电阻率测井值小于74 Ω·m，自然电位测井值低于12 mV时，该模型预测岩性最有效。由图10可以直观地了解测井特征如何影响岩性识别的性能。基于本文所建模型，能够有效提高分类性能，为地质工作者进行岩性识别提供了有效方法。图9和图10为识别黄铁绢英岩化花岗质碎裂岩（第8类）提供了有利的测井组合，提供了岩性识别集成模型的可解释性，这将使地质学家能够对岩性识别结果进行深入评估，并对招贤金矿研究区获得新的见解。

图10

图10 测井特征组合与岩性的部分依赖图

Fig.10 Partial dependence diagram of logging feature combination and lithology

3 结论

考虑到测井响应特征与岩性之间的强非线性关系，在非平衡样本数据处理基础上研究基于机器学习算法的测井岩性智能识别方法与流程，并以胶西北招贤金矿床实例测井数据为例，针对非平衡的样本数据，进行ADASYN过采样后构建了CatBoost岩性识别模型。得出如下结论：

（1）针对实例研究区复杂岩性分布和非均衡测井样本数据，提出了一套基于ADASYN非均衡数据处理和CatBoost机器学习的测井岩性智能识别方法与流程。该方法首先利用ADASYN算法处理非均衡测井样本数据，针对难分类的少数类样本数据生成合成样本，然后采用CatBoost算法结合网格搜索十折交叉验证构建最优岩性分类识别模型，通过增强模型在少数类样本上的学习效果进一步改善模型的岩性分类性能，结果显示通过ASASYN算法进行数据处理后，模型岩性识别的精度明显提高了。

（2）基于ADASYN-CatBoost方法针对实例矿床10种岩性进行智能识别，建立岩性分类模型，取得了良好的岩性识别效果。在ADASYN算法数据处理的基础上，结合CatBoost机器学习方法实现了实例研究区10种岩性的分类识别。模型评价结果显示，ADASYN-CatBoost方法对实例矿床岩性识别具有良好的分类性能，平均精确率为98.21%，召回率为98.20%，F1分数为98.20%，尤其针对黄铁绢英岩化花岗质碎裂岩和黄铁绢英岩化碎裂岩2种赋矿岩性，取得了较好的分类识别效果。

（3）结合测井响应特征的重要性贡献排序解译CatBoost模型内在决策机制，增强了模型分类岩性识别的可解释性，分析特征的贡献排序与研究区主要岩性及其分布特点密切相关。实例CatBoost模型解译结果表明，特征贡献排序分别为电阻率、自然电位和自然伽马，采用部分依赖图进一步显示岩性分类结果与测井响应特征之间的关系，估计岩性识别对测井特征的部分依赖程度，提高了岩性识别模型的可解释性。结果显示，CatBoost模型具有强稳健性、强泛化能力、强解释性和强分类性能，对进一步开展实例矿床深部矿产资源勘探具有重要的指示意义。

下一步工作的重点是将本文所提方法应用于其他地质情况类似的矿区，进一步验证该方法预测的准确度。由于本研究中不同岩性对应的样本数目较少且很不均衡，所以对全部样本进行了均衡化处理，并未考虑均衡化对测试集结果造成的影响。在后续工作中，将考虑先划分数据集，使用均衡化处理后的训练集训练模型，尽量保持测试集样本的真实性，对已训练的模型进行评估，获得模型在真实样本分布下的性能指标。

http://www.goldsci.ac.cn/article/2023/1005-2518/1005-2518-2023-31-5-721.shtml

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[]

Batista

， Prati

R C

， Monard

M C

，2004.

A study of the behavior of several methods for balancing machine learning training data

［J］.Acm Sigkdd Explorations Newsletter，6（1）：20-29.

Chawla

N V

， Bowyer

K W

，Hal

L O，

et al，2002.SMOTE：Synthetic minority over-sampling technique［J］.Journal of Artificial Intelligence Research，16：321-357.

Chen

Ganghua

， Liang

Shasha

， Wang

Jun

，et al，2019.

Application of convolutional neural network in lithology identification

［J］.Well Logging Technology，43（2）：129-134.

Dawson

H L

， Olivier

， Cédric

M J

，2023.

Impact of dataset size and convolutional neural network architecture on transfer learning for carbonate rock classification

［J］.Computers and Geosciences，171：105284.

Elith

， Leathwick

J R

， Hastie

，2008.

A working guide to boosted regression trees

［J］.Journal of Animal Ecology，77（4）：802-813.

Elnahas

M M

， Hussein

， Keshk

，2021.

Imbalanced data over-sampling technique based on convex combination method

［J］.International Journal of Computers and Information，9（1）：15-28.

Friedman

J H

，2001.

Greedy function approximation： A gradient boosting machine

［J］. Annals of Statistics，29（5）：1189-1232.

Guangming

， Yan

Jiayong

， Zhang

Kun

，et al，2017.

Current status and progress of lithology identification technology

［J］.Progress in Geophysics，32（1）：26-40.

Yunfeng

， Zhong

Peng

， Tang

Huiming

，et al，2019.

Intelligent measurement on geometric information of rock discontinuities based on borehole image

［J］.Rock and Soil Me-chanics，40（11）：4467-4476.

Y F

， Bao

Z D

， Song

，et al，2019.

Complex lithology prediction using probabilistic neural network improved by continuous restricted Boltzmann machine and particle swarm optimization

［J］.Journal of Petroleum Science and Engineering，179：966-978.

Gui

Zhou

， Chen

Jianguo

， Wang

Chengbin

，2017.

Classification of imbalance geological data based on PCA-SMOTE algorithm and random forest：A case study of geochemical data from the eastern Tianshan of China

［J］.Journal of Guilin University of Technology，37（4）：587-593.

Han

Qidi

， Zhang

Xiaotong

， Shen

Wei

，2019.

Application of support vector machine based on decision tree feature extraction in lithology classification

［J］.Journal of Jilin University（Earth Science Edition），49（2）：611-620.

H B

， Yang

， Garcia

E A

，et al，2008.

ADASYN：Adaptive synthetic sampling approach for imbalanced learning

［C］//2008 IEEE International Joint Conference on Neural Networks.Hong Kong：IEEE.

Y W

， Li

W R

， Dong

Z Z

，et al，2023.

Lithologic identification of complex reservoir based on PSO-LSTM-FCN algorithm

［J］. Energies，16（5）：2135.

Hui

， Wang

W Y

， Mao

B H

，2005.

Borderline-SMOTE：A new over-sampling method in imbalanced data sets learning

［C］//International Conference on Intelligent Computing.Berlin，Heidelberg：Springer Berlin Heidelberg.

Jiang

， Fang

， Zhang

H B

，et al，2022.

Adaptive multiexpert learning for lithology recognition

［J］. SPE Journal，27（6）：3802-3813.

Kang

Qiankun

， LU

Laijun

，2020.

Application of random forest algorithm in classification of logging lithology

［J］.Global Geology，39（2）：398-405.

Liu

J M

， Gao

Y B

， Hu

F J

，2021.

A fast network intrusion detection system using adaptive synthetic oversampling and LightGBM

［J］.Computers and Security，106：102289.

Liu

Ziyun

， Wang

Xianggong

，1989.

Determination of lithology through probability statistics

［J］.Journal of Oil and Gas Technology，（2）：35-40.

Liu

J J

， Liu

J C

，2022.

Integrating deep learning and logging data analytics for lithofacies classification and 3D modeling of tight sandstone reservoirs

［J］.Geoscience Frontiers，13（1）：101311.

Qingtian

Lü

， Zhang

Xiaopei

， Tang

Jingtian

，et al，2019.

Review on advancement in technology and equipment of geophysical exploration for metallic deposits in China

［J］.Chinese Journal Geophysics，62（10）：3629-3664.

Mou

Dan

， Wang

Zhuwen

， Huang

Yulong

，et al，2015.

Lithological identification of volcanic rocks from SVM well logging data：Case study in the eastern depression of Liaohe Basin

［J］.Chinese Journal of Geophysics，58（5）：1785-1793.

Ren

X X

， Hou

J G

， Song

S H

，et al，2019.

Lithology identification using well logs：A method by integrating artificial neural networks and sedimentary patterns

［J］.Journal of Petroleum Science and Engineering，182：1-15.

Sun

Jian

， Zhou

Kui

， Ran

Xiaofeng

，et al，2009.

Bayes discriminant analysis method in lithology recognition

［J］.Journal of Oil and Gas Technology，（2）：74-77.

Tian

， Xu

， Zhang

X Y

，et al，2016.

Multi-resolution graph-based clustering analysis for lithofacies identification from well log data：Case study of intraplatform bank gas fields，Amu Darya Basin

［J］.Applied Geophysics，13（4）：598-607.

Tripathy

， Agrawal

， Rath

S K

，2016.

Classification of sentiment reviews using n-gram machine learning approach

［J］.Expert Systems with Applications，57：117-126.

Vikrant

A D

， Mario

R E

，2019.

Formation lithology classification using scalable gradient boosted decision trees

［J］.Com-puters and Chemical Engineering，128：392-404.

Wang

Chuanying

， Zhong

Sheng

， Sun

Weichun

，2009.

Study of connectivity of discontinuities of borehole based on digital borehole images

［J］.Chinese Journal of Rock Mechanics and Engineering，28（12）：2405-2410.

Wang

Heng

， Jiang

Yanan

， Zhang

Xin

，et al，2021.

Lithology identification method based on gradient boosting algorithm

［J］.Journal of Jilin University（Earth Science Edition），51（3）：940-950.

Wang

X W

， Brownlee

， Woodward

J R

，et al，2021.

Aircraft taxi time prediction：Feature importance and their implications

［J］.Transportation Research Part C：Emerging Techno-logies，124（1）：102892.

Wang

Yingpeng

， Zhu

Peigang

， Zhang

Wen

，et al，2022.

Geological significances and geochemical compositions of gold and gold-bearing minerals from Zhaoxian deeply-seated gold deposit，Jiaodong area

［J］.Mineral Deposits，41（2）：255-272.

Delong

， Li

Tao

， Huang

Baohua

，et al，2012.

Research on the identification of the lithology and fluid type of foreign oilfield by using the crossplot method

［J］.Progress in Geophysics，27（3）：1123-1132.

T T

， Coco

， Neale

，2020.

A predictive model of recreational water quality based on adaptive synthetic sampling algorithms and machine learning

［J］.Water Research，177（15）：115788.

Xun

Zhifeng

， Yu

Jifeng

，2008.

The application of cluster and discriminant analyses in logging lithology recognition

［J］.Jo-urnal of Shandong University of Science and Technology（Natural Science Edition），27（5）：10-13.

Yang

L Q

， Deng

， Guo

L N

，et al，2016.

Origin and evolution of ore fluid，and gold-deposition processes at the giant Taishang gold deposit，Jiaodong Peninsula，Eastern China

［J］.Ore Geology Reviews，72：585-602.

Yao

Jinzhu

， Fu

Yaoqing

， Wang

Zhengyong

，et al，2014.

Identification of cuttings based on color and texture feature

［J］.Journal of Sichuan University（Natural Science Edition），51（2）：313-318.

Zhang

， Yang

， Guo

，et al，2015.

Comparisons of isomiR patterns and classification performance using the rank-based MANOVA and 10-fold cross-validation

［J］.Gene，569（1）：21-26.

Zhang

Tao

， Li

Yanping

， Liu

Xiaoyu

，et al，2023.

Lithology interpretation of deep metamorphic rocks with well logging based on APSO-LSSVM algorithm

［J］.Progress in Geophysics，38（1）：382-392.

Zhang

Xuchun

，2021.

Based on the CatBoost Model to Realize Monitoring and Early Warning for Discharge Situation of the Sewage Treatment Plant

［D］.Lanzhou：Lanzhou University.

Zhao

Jian

， Gao

Fuhong

，2003.

Application of crossplots based on well log data in identifying volcanic lithology

［J］.Global Geology，（2）：136-140.

Zhao

S W

， Zhou

J H

， Yang

G R

，2019.

Averaging estimators for discrete choice by M-fold cross-validation

［J］.Economics Letters，174：65-69.

Zhao

Xianling

， Wang

Guiwen

， Zhou

Zhenglong

，et al，2015.

A review of lithology interpretation methods using geophysical well logs

［J］.Progress in Geophysics，30（3）：1278-1287.

Zheng

， Wang

， Xu

，et al，2020.

GSSA：Pay attention to graph feature importance for GCN via statistical self-attention

［J］.Neurocomputing，417：458-470.

Zhu

L P

， Li

H Q

， Yang

Z G

，et al，2018.

Intelligent logging lithological interpretation with convolution neural networks

［J］.Petrophysics，59（6）：799-810.

Zhu

X Z

， Wan

Z H

， Tsang

D C

，et al，2020.

Machine learning for the selection of carbon-based materials for tetracycline and sulfamethoxazole adsorption

［J］.Chemical Engineering Jou-rnal，406：126782.

Zou

Y H

， Chen

Y T

， Deng

，2021.

Gradient boosting decision tree for lithology identification with well logs：A case study of Zhaoxian gold deposit，Shandong Peninsula，China

［J］.Natural Resources Research，30（5）：3197-3217.

陈钢花，梁莎莎，王军，等，2019.

卷积神经网络在岩性识别中的应用

［J］.测井技术，43（2）：129-134.

付光明，严加永，张昆，等，2017.

岩性识别技术现状与进展

［J］.地球物理学进展，32（1）：26-40.

葛云峰，钟鹏，唐辉明，等，2019.

基于钻孔图像的岩体结构面几何信息智能测量

［J］.岩土力学，40（11）：4467-4476.

桂州，陈建国，王成彬，2017.

基于PCA-SMOTE-随机森林的地质不平衡数据分类方法——以东天山地球化学数据为例

［J］. 桂林理工大学学报，37（4）：587-593.

韩启迪，张小桐，申维，2019.

基于决策树特征提取的支持向量机在岩性分类中的应用

［J］.吉林大学学报（地球科学版），49（2）：611-620.

康乾坤，路来君，2020.

随机森林算法在测井岩性分类中的应用

［J］.世界地质，39（2）：398-405.

刘子云，王向公，1989.

利用概率统计方法判断岩性

［J］.石油天然气学报，（2）：35-40.

吕庆田，张晓培，汤井田，等，2019.

金属矿地球物理勘探技术与设备：回顾与进展

［J］.地球物理学报，62（10）：3629-3664.

牟丹，王祝文，黄玉龙，等，2015.

基于SVM测井数据的火山岩岩性识别——以辽河盆地东部坳陷为例

［J］. 地球物理学报，58（5）：1785-1793.

孙健，周魁，冉小丰，等，2009.

Bayes判别分析方法在岩性识别中的应用

［J］.石油天然气学报，（2）：74-77.

王川婴，钟声，孙卫春，2009.

基于数字钻孔图像的结构面连通性研究

［J］.岩石力学与工程学报，28（12）：2405-2410.

王恒，姜亚楠，张欣，等，2021.

基于梯度提升算法的岩性识别方法

［J］.吉林大学学报（地球科学版），51（3）：940-950.

王英鹏，祝培刚，张文，等，2022.

胶东地区招贤深部金矿床金和载金矿物化学成分及其地质意义

［J］.矿床地质，41（2）：255-272.

徐德龙，李涛，黄宝华，等，2012.

利用交会图法识别国外M油田岩性与流体类型的研究

［J］.地球物理学进展，27（3）：1123-1132.

寻知锋，余继峰，2008.

聚类和判别分析在测井岩性识别中的应用

［J］.山东科技大学学报（自然科学版），27（5）：10-13.

姚金铸，符耀庆，王正勇，等，2014.

基于颜色特征和纹理特征的岩屑岩性识别

［J］.四川大学学报（自然科学版），51（2）：313-318.

张涛，李艳萍，刘晓宇，等，2023.

基于自适应粒子群优化最小二乘支持向量机的深层变质岩测井岩性识别

［J］.地球物理学进展，38（1）：382-392.

张旭春

，2021.

基于CatBoost模型实现对污水处理厂排污情况的监测预警

［D］.兰州：兰州大学.

赵建，高福红，2003.

测井资料交会图法在火山岩岩性识别中的应用

［J］.世界地质，（2）：136-140.

赵显令，王贵文，周正龙，等，2015.

地球物理测井岩性解释方法综述

［J］.地球物理学进展，30（3）：1278-1287.