CNN-LSTM模型在边坡可靠度分析中的应用
1.
2.
Application of CNN-LSTM Model in Slope Reliability Analysis
1.
2.
收稿日期: 2022-11-12 修回日期: 2023-02-03
基金资助: |
|
Received: 2022-11-12 Revised: 2023-02-03
关键词:
Keywords:
本文引用格式
荣光旭, 李宗洋.
RONG Guangxu, LI Zongyang.
边坡稳定性分析一直是岩土工程领域中的重要课题。由于传统的稳定性分析方法不能定量地考虑岩土体力学参数以及计算模型的不确定性,因此以不确定性问题作为研究对象的边坡可靠度分析方法受到研究人员的重视(舒苏荀等,2014;牛草原等,2017)。该类方法基于概率统计知识来计算边坡的可靠指标和失效概率,以概率的形式表征边坡的安全可靠程度。常用的方法有蒙特卡洛法(MCS)、一次二阶矩法(FORM)和响应面法(RSM)等(谢秀栋等,2008;蒋水华等,2013)。MCS法确定结构失效概率的原理是统计样本点功能函数出现失效点的频数,方法简单易行,但是需要大量样本数据支持,效率较低;一次二阶矩法将非线性功能函数在某点用Taylor级数展开计算得到可靠指标,但是由于边坡是一个动态变化的开放系统,影响因素众多,且这些因素与边坡稳定性之间的作用机理和映射关系尚未探究清楚,因此该方法计算结果精度较差。
为了克服传统方法的局限性,研究人员将机器学习方法引入边坡可靠度分析领域。Wang et al.(2021)利用卷积神经网络(Convolutional Neural Networks,CNN)对足够数量的随机场样本数据进行训练,然后通过随机有限元方法(Random Field Finite Element Method,RF-FEM)对一多层土质边坡的可靠度进行了预测;黄卓涛(2022)利用CNN算法计算了非均质水库边坡在暴雨和库水位骤降的极端条件下的失效概率。上述文中只对比分析了CNN算法与其他单一的机器学习方法计算结果的差异,均未对融合2个或多个模型后计算结果的差异进行讨论。姬建等(2022)利用K-L展开法将边坡土体随机场离散为数字图像,建立了边坡功能函数与随机场图像之间的CNN代理模型,进而计算得到边坡的失效概率,但该方法建立代理模型的过程较为复杂,效率偏低。
上述研究都是建立在机器学习单一模型应用的基础上,由于单一模型架构的限制,在进行分析预测时可能会存在误差较大的问题。已有研究表明融合2个或多个模型可有效避免该问题。宗广昌(2021)和王朝阳等(2022)融合卷积神经网络与长短时记忆网络(Long Short-Term Memory,LSTM)模型对边坡位移进行了预测研究,并对比了融合后CNN-LSTM模型和单一模型的预测结果,结果表明相比单一机器学习模型,混合模型的均方根误差(Root Mean Squared Error,RMSE)和平均绝对误差(Mean Absolute Error,MAE)更低,计算效率高,预测效果更好,整体上优于单一模型。虽然前述研究证明了CNN-LSTM模型的可行性及预测性能优势,但是在模型应用中模型超参数的选择都是依据经验而定,未能对超参数的选择进行讨论。模型超参数是模型外部的配置,而超参数的调优过程则是为了提高模型预测准确性反复调整的过程。
因此,本文基于超参数的视角提出了一种用于边坡可靠度分析的CNN-LSTM混合模型方法。首先构建CNN模块,用于学习包含有关空间分布和强度的变量,提取数据特征,被“压平”(Flatten)后作为LSTM模块的输入;其次构建双架构LSTM模块用于深层次模型训练输出结果进而得到边坡失效概率,对边坡进行可靠度分析;在模型构建过程中,CNN-LSTM模型中超参数采用5因素4水平正交试验表
1 基本原理
1.1 卷积神经网络(CNN)
卷积神经网络(CNN)由输入层、卷积层、ReLU层、池化层、全连接层和输出层组成(Rawat et al.,2017),如图1所示。在特征提取中,CNN一般是通过核或卷积滤波器的卷积算子来完成,每个单元的激活由输入信号表示核或卷积滤波器(Bisharad et al.,2019),多用于学习数据的特征。
图1
CNN特征提取一般通过
式中:
池化层一般通过最大池化(Maxpooling)调整神经元的输出以达到减少数据大小、降低特征维度的目的。
1.2 LSTM块
虽然特征提取层可以完成对样本数据的重要特征保留,但是缺乏捕捉数据间关系的学习能力。为此,引入可以关联长短期信息记忆的LSTM网络。LSTM由遗忘门(
图2
图2
LSTM循环网络“细胞”的框图
circulation network
Fig.2
Block diagram of ‘Cells’ in the LSTM
三类门控系统计算公式如下:
式中:
2 优化的CNN-LSTM模型可靠度分析方法
2.1 正交试验
在处理多因素多水平的概率统计问题时常采用正交试验设计,由于其均匀分散的特点被广泛应用于参数优化中。当变量数量较多时,所需试验的数量随变量增加表现出几何增加的趋势。正交试验可以有效减少试验数量(Wan et al.,1994;Devesa et al.,2007;Yang et al.,2008),被用来在一系列试验组合中分配试验因素,得到的结果可以用通用程序进行分析。正交数组中任意2列不同的组合出现频率是相同的。因此,可以将不同因素的影响分离出来(Chen et al.,2017)。
2.2 CNN-LSTM模型超参数正交设计优化
CNN-LSTM模型中CNN模块部分每个卷积层和池化层之间均采用ReLU激活函数,在进行数据特征融合后得到卷积神经网络的特征描述;将特征描述经过reshape函数调整数据类型后作为输入数据传递给LSTM,通过LSTM层和dropout层的处理,最终在全连接层输出数据。具体模型结构如图3所示。
图3
本文在确定CNN-LSTM网络超参数时采用正交试验方法。已有研究表明,影响模型准确性的超参数主要有卷积核数量(kernel)、卷积层输出维度(filters)、LSTM隐藏层单元个数(hidden)以及随机丢弃的神经元比例(dropout)(Sun et al.,2016)。超参数取值范围见表1。
表1 超参数取值范围
Table 1
超参数 | 取值范围 |
---|---|
kernel | 1,2,3,4,5,6,7,8 |
filters | 8,16,32,64,256,512 |
hidden | 8,16,32,64,256 |
dropout | 0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9 |
同时,研究表明LSTM中适当增加隐藏层单元的数目会提高模型的预测准确率(Chen et al.,2015)。综上,本文正交试验设计对具有代表性的超参数进行优化:根据表1及文献(Liu et al.,2017;Liu et al.,2020),采用2层CNN,第一层和第二层卷积层输出维度取值范围为8,16,32,64;LSTM结构隐藏层第一层和第二层单元数量取值范围为5,10,15,20;考虑到模型训练参数较多,但是样本数较少,为了避免产生过拟合,随机丢弃的神经元比例取值范围为0.3,0.4,0.5,0.6。根据因素和水平数,选择
式中:
表2 正交试验数据及RMSE结果
Table 2
方案编号 | A | B | C | D | E | RMSE |
---|---|---|---|---|---|---|
1 | 8 | 8 | 5 | 5 | 0.3 | 0.2878 |
2 | 8 | 16 | 10 | 10 | 0.4 | 0.1366 |
3 | 8 | 32 | 15 | 15 | 0.5 | 0.1307 |
4 | 8 | 64 | 20 | 20 | 0.6 | 0.1150 |
5 | 16 | 8 | 10 | 15 | 0.6 | 0.1849 |
6 | 16 | 16 | 5 | 20 | 0.5 | 0.1266 |
7 | 16 | 32 | 20 | 5 | 0.4 | 0.1452 |
8 | 16 | 64 | 15 | 10 | 0.3 | 0.1632 |
9 | 32 | 8 | 15 | 20 | 0.4 | 0.1594 |
10 | 32 | 16 | 20 | 15 | 0.3 | 0.1438 |
11 | 32 | 32 | 5 | 10 | 0.6 | 0.1460 |
12 | 32 | 64 | 10 | 5 | 0.5 | 0.1512 |
13 | 64 | 8 | 20 | 10 | 0.5 | 0.0837 |
14 | 64 | 16 | 15 | 5 | 0.6 | 0.1648 |
15 | 64 | 32 | 10 | 20 | 0.3 | 0.1653 |
16 | 64 | 64 | 5 | 15 | 0.4 | 0.2099 |
由表2可知,方案13的RMSE值最小,因此CNN网络架构中第一层卷积输出维度为64,第二层卷积输出维度为8;dropout比例为0.5,LSTM结构第一层和第二层隐藏层数量分别为5个单元和20个单元。上述即为本文CNN-LSTM模型的最优超参数。
2.3 优化器与损失函数
在模型训练过程中,选择Adam(Adaptive Moment Estimation)作为优化迭代更新神经网络权值的算法(Diederik et al.,2016)。Adam是一种学习率自适应的优化算法,可以替代传统的随机梯度下降过程。在Adam中,动量被直接并入梯度一阶矩的估计,用以动态调整参数的学习率。同时,Adam中可以偏置修正,修正后每一次迭代的学习率都有一个确定的范围。因此,通常认为Adam对超参数的选择相当稳健。损失函数采用均方误差(MSE)。
采用RMSE和MAE(平均绝对误差)2种不同的误差度量公式评价本文提出的模型(Ahmed et al.,2020)。其中,MAE表达式如下:
式中:
2.4 CNN-LSTM可靠度分析方法
考虑到边坡可靠度分析的各种影响因素,如岩土体材料性能、几何参数和各种作用效应等,将上述因素作为基本变量
式中:
失效概率
计算流程包括预处理、CNN-LSTM模型训练、正交试验、计算可靠指标和失效概率4个部分,如图4所示。
图4
图4
基于正交试验设计的CNN-LSTM模型计算流程
Fig.4
Calculation flow of CNN-LSTM model based on orthogonal test design
具体步骤如下:
(1)获取原始边坡数据集。归一化后获得CNN和LSTM训练数据样本集。
(2)模型训练。使用CNN模型对划分后的数据集进行训练,然后对LSTM模型进行训练得到边坡的失效概率,并通过正交试验设计对CNN-LSTM模型超参数进行优化。正交试验设计优化步骤如下:首先根据超参数设计正交表表头;其次,选择合适的正交表,确定试验方案;最后,根据试验方案对CNN-LSTM模型进行多次性能测试,根据结果最终确定模型的超参数,完成对模型的优化。
(3)训练结束,保存模型。将待预测边坡数据作为测试数据输入已训练好的模型,得到边坡失效概率。
深度学习模型通过Keras库和TensorFlow后端实现,其中TensorFlow 2.9.0版本代码的编写利用Python3.6完成。全部计算所用计算机的配置为Intel(R)Core(TM)i7-11800CPU@2.3GHz,NVIDIA GeForce RTX 3060 GPU,内存为32 GB。
3 数据集
在使用机器学习方法对边坡稳定性进行分析的相关研究中,数据库是十分重要的因素,数据库变量选择的合理性直接影响着最终结果。结合近年来相关研究(Das et al.,2011;Suman et al.,2016;Xue,2017)及工程实践,选择高度(
表3 数据集部分数据
Table 3
样本编号 | h/m | α/(°) | μ | c/kPa | φ/(°) | γ/(kN·m-3) | p/mm | 稳定状态标签值 |
---|---|---|---|---|---|---|---|---|
样本1 | 90.0 | 18 | 0.27 | 19.55 | 9.91 | 23.04 | 950 | 1 |
样本2 | 136.5 | 22 | 0.32 | 21.30 | 10.10 | 20.03 | 1 200 | 0 |
样本3 | 37.0 | 25 | 0.34 | 11.00 | 8.50 | 20.50 | 1 095 | 1 |
样本4 | 33.0 | 15 | 0.32 | 21.00 | 10.00 | 18.80 | 995 | 1 |
样本5 | 70.0 | 13 | 0.30 | 9.61 | 10.44 | 19.47 | 1 020 | 0 |
︙ | ︙ | ︙ | ︙ | ︙ | ︙ | ︙ | ︙ | ︙ |
样本416 | 41.7 | 12 | 0.29 | 34.72 | 13.30 | 19.94 | 1 270 | 1 |
样本417 | 85.0 | 18 | 0.35 | 18.60 | 15.10 | 19.50 | 1 067 | 1 |
样本418 | 183.0 | 40 | 0.28 | 17.60 | 20.30 | 25.00 | 1 110 | 0 |
样本419 | 50.0 | 13 | 0.30 | 31.00 | 15.73 | 19.30 | 1 320 | 1 |
样本420 | 40.0 | 12 | 0.31 | 20.80 | 14.58 | 19.32 | 1 260 | 0 |
表4 数据集相关指标描述
Table 4
项目 | h/m | α/(°) | μ | c/kPa | φ/(°) | γ /(kN·m-3) | p/mm |
---|---|---|---|---|---|---|---|
最大值 | 511.00 | 53.00 | 0.42 | 107.00 | 45.00 | 31.30 | 1 479.00 |
最小值 | 16.66 | 8.00 | 0.27 | 0.00 | 0.00 | 12.00 | 876.00 |
平均值 | 112.43 | 34.51 | 0.32 | 27.94 | 23.01 | 20.81 | 1 203.00 |
标准差 | 129.29 | 10.11 | 0.06 | 22.57 | 16.33 | 3.36 | 6.77 |
由于特征向量量纲不统一,为了消除特征间单位和尺度差异的影响以便于模型的训练,在训练前需要对数据进行预处理。本文选择min-max方法对特征值进行归一化处理,表示为
式中:
由数据集样本特征可知,图1中每个输入的
4 算例研究与分析
4.1 算例1
图5
图5
CNN-LSTM模型训练损失函数值(MSE)
Fig.5
Training loss function value(MSE) of the CNN-LSTM model
由图5可以看出,训练过程中误差(MSE)逐渐下降并趋于稳定,总体上没有出现上升趋势,说明在训练过程中没有发生过拟合。训练集中在训练256轮次后,误差曲线振荡幅度明显减小。验证集误差(MSE)在第158轮次到达稳定值,总历时约44.8 s,可见CNN-LSTM模型的训练时间很短。至此,CNN-LSTM模型训练结束,保存得到的模型。
表5 算例1不同方法可靠度分析结果
Table 5
分析方法 | 失效概率/% | 相对误差/% |
---|---|---|
蒙特卡洛法(安正明等,2022) | 15.36 | - |
本文方法 | 15.40 | 0.26 |
4.2 工程实例
图6
表6 燕山集滑坡相关参数
Table 6
参数及单位 | 参数值 | 参数及单位 | 参数值 |
---|---|---|---|
h/m | 78 | c/kPa | 9.81 |
α/(°) | 13 | φ/(°) | 9.34 |
μ | 0.31 | p/mm | 1 191.3 |
γ/(kN·m-3) | 19.58 |
将表5中燕山集滑坡相关数据作为测试数据输入已训练好的模型进行预测,设置最大迭代轮次为160次,得到该滑坡的失效概率为0.0024%。
表7 CNN-LSTM与其他模型计算结果对比
Table 7
模型 | 失效概率/% | 相对误差/% | 计算耗时/s |
---|---|---|---|
MCS | 0.0023 | - | 119 |
CNN-LSTM | 0.0024 | 4.35 | 45 |
RSM | 0.0062 | 169.60 | 68 |
FORM | 0.0062 | 169.60 | 151 |
4.3 与其他机器学习方法对比分析
为进一步验证本文模型的有效性,将CNN-LSTM模型与单一的CNN模型、LSTM模型和机器学习中多元线性回归算法(Multivariable Linear Regression,MLR)进行对比,分析各模型的优劣性。其中,CNN和LSTM模型均采用2层拓扑结构,并根据RMSE最小原则对网络结构进行了优化。所有深度学习模型均采用Adam进行训练,Adam算法可以保证训练过程中学习步骤相对于参数梯度的尺度不变,损失函数为MSE。机器学习模型使用Scikit-learn库实现(Pedregosa et al.,2011),MLR采用随机梯度下降(Stochastic Gradient Descent,SGD)算法,损失函数同样采用MSE函数。所有模型均采用MAE和RMSE进行度量。表8给出了所有模型的相关描述、参数数量、训练和测试时间的平均结果。
表8 各模型的参数及测试结果对比
Table 8
模型名称 | 模型描述 | 参数数量/个 | 训练用时/s | 测试用时/s |
---|---|---|---|---|
CNN1 | filter32 | 83 232 | 45.21 | 2.23 |
CNN2 | filter64 | 166 176 | 47.53 | 2.26 |
LSTM1 | 50个单元 | 74 200 | 43.72 | 2.10 |
LSTM2 | 100个单元 | 168 400 | 48.24 | 2.16 |
CNN-LSTM | CNN:第一层卷积核为64,第二层卷积核为8; LSTM:第一层20个单元,第二层10个单元 | 76 713 | 43.30 | 1.98 |
图7
图7
各模型训练集/验证集损失值(MSE)
Fig.7
Training set/validation set loss value(MSE) of each model
采用这4个模型对燕山集滑坡进行失效概率预测,对比分析不同模型的预测性能,结果见表9。
表9 各模型预测性能及结果比较
Table 9
模型 | MAE | RMSE | 失效概率/% | |
---|---|---|---|---|
MCS | - | - | 0.0023 | - |
CNN | 0.0949 | 0.1024 | 0.0047 | 104.00 |
LSTM | 0.0926 | 0.0942 | 0.0044 | 91.30 |
CNN-LSTM | 0.0794 | 0.0837 | 0.0024 | 4.35 |
MLR | 0.0821 | 0.0886 | 0.0031 | 34.78 |
由表9可知,CNN-LSTM模型整体上优于其他3个模型(CNN、LSTM和MLR),其MAE和RMSE得分最低,均方根误差和平均绝对误差最大值分别降低了16.3%和22.3%,说明相比单一模型在处理复杂数据方面的能力不足,CNN-LSTM模型取得了比CNN模型精确度更高的最优结果。CNN-LSTM模型以较小的噪声和偏差实现了近似预测,表现出最佳的性能。
此外,CNN模型提供了较差的预测结果,但CNN可以通过使用不同的优化方法来提高预测效果;MLR法耗时较长,这是由于MLR在训练时将整个数据集作为训练样本,且每次更新可能并不会按照正确的方向进行,因此可能带来优化波动,收敛较慢,这一点有别于Adam算法。在
5 结论
(1)提出了一种基于正交设计优化超参数的CNN-LSTM模型,用于边坡可靠度分析。通过正交设计考虑多因素影响,优化确定CNN模型和LSTM模型的超参数的取值,以获得理想的模型超参数,从而提高模型的预测能力。
(2)CNN可用于学习数据中包含有关空间分布和强度的变量特征,将学习后的数据特征作为LSTM输入从而实现预测失效概率,实现可靠度分析的功能。
(3)CNN-LSTM模型较单一的CNN、LSTM模型在数据集训练时效及失效概率预测精度方面更有优势;相比传统的MCS方法,其失效概率相对误差仅为4.35%,但是计算效率提高了近2倍;相比MCS、RSM和FORM等传统方法,CNN-LSTM模型在计算耗时方面优势并不明显,但是其预测精度大幅提高。
http://www.goldsci.ac.cn/article/2023/1005-2518/1005-2518-2023-31-4-613.shtml
参考文献
A review and evaluation of the state of the art in PV solar power forecasting:Techniques and optimization
[J].,
Reliability analysis of the slope stability of the soil disposal area in a mountainous highway construction
[J].,
Music genre recognition using convolutional recurrent neural network architecture
[J].,
A LSTM-based method for stock returns prediction:A case study of China stock market
[C]//
Improving sentiment analysis via sentence type classification using BiLSTM-CRF and CNN
[J].,
Classification of slopes and prediction of factor of safety using differential evolution neural networks
[J].,
Extraction study of algal pigments in river bed sediments by applying factorial designs
[J].,
Adam:A method for stochastic optimization
[C]//
A method for determining the number realizations in the calculation of reliability by Monte Carlo simulation method
[J].,(
Hybrid speech recognition with deep bidirectional LSTM
[C]//
Reliability Analysis of Heterogeneous Reservoir Slopes Using Machine Learning Algorithms
[D].
Slope reliability analysis based on deep learning of digital images of random fields using CNN
[J].,
Non-intrusive stochastic finite element method for slope reliability analysis based on Latin hypercube sampling
[J].,
Foreign exchange rates forecasting with convolutional neural network
[J].,
Identification of abnormal processes with spatial-temporal data using convolutional neural networks
[J].,
Study on impact from statistical characteristics of soil mass shear strength parameters on slope reliability
[J].,
Scikit-learn:Machine learning in python
[J].,
Deep convolutional neural networks for image classification:A comprehensive review
[J].,
Application of ABAQUS finite element strength reduction program based on Python in slope stability analysis
[J].,
Fuzz random reliability analysis of slopes considering spatial variability of soil parameters
[J].,
Slope stability analysis using artificial intelligence techniques
[J].,
Sentiment analysis for Chinese microblog based on deep neural networks with convolutional extension features
[J].,
Orthogonal array designs for the optimization of liquid chromatographic analysis of pesticides
[J].,
Dynamic prediction of landslide displacement based on time series and CNN-LSTM
[J].,
Novel approach to efficient slope reliability analysis in spatially variable soils
[J].,
Research on analysis of slope stability based on reliability theory
[J].,
Overview of power system uncertainty and its solutions under energy transition
[J].,
Prediction of slope stability based on hybrid PSO and LSSVM
[J].,
The extraction of pigments from fresh Laminaria japonica
[J].,
Study on Slope Displacement Prediction Based on Conv-LSTM
[D].
山区高速公路弃渣场边坡稳定性可靠度分析
[J].,
用蒙特卡洛法计算可靠度时模拟次数的选择
[J].,(
基于机器学习算法的非均质水库边坡可靠度分析
[D].
边坡随机场数字图像特征CNN深度学习及可靠度分析
[J].,
基于拉丁超立方抽样的边坡可靠度分析非侵入式随机有限元法
[J].,
土体抗剪强度参数统计特性对边坡可靠性影响研究
[J].,
基于Python的ABAQUS有限元强度折减法程序在边坡稳定性分析中的应用
[J].,
考虑参数空间变异性的边坡模糊随机可靠度分析
[J].,
基于时间序列和CNN-LSTM的滑坡位移动态预测
[J].,
基于可靠度理论的边坡稳定性分析研究
[J].,
能源转型背景下电力系统不确定性及应对方法综述
[J].,
基于Conv-LSTM的边坡位移预测研究
[D].
/
〈 | 〉 |