多元统计分析在滨海矿区水源识别中的应用——以三山岛金矿为例

doi:10.11872/j.issn.1005-2518.2019.02.207

多元统计分析在滨海矿区水源识别中的应用——以三山岛金矿为例

刘国伟^,¹^,²^,³, 马凤山^,¹^,², 郭捷¹^,², 杜云龙⁴, 侯成录⁴, 李威⁴

1. 中国科学院地质与地球物理研究所，中国科学院页岩气与地质工程重点实验室，北京 100029

2. 中国科学院地球科学研究院，北京 100029

3. 中国科学院大学，北京 100049

4. 山东黄金矿业（莱州）有限公司三山岛金矿，山东莱州 261442

Application of Multivariate Statistical Analysis to Identify Water Source in Coast Mine Area：As Example of Sanshandao Gold Mine

LIU Guowei^,¹^,²^,³, MA Fengshan^,¹^,², GUO Jie¹^,², DU Yunlong⁴, HOU Chenglu⁴, LI Wei⁴

1. Key Laboratory of Shale Gas and Geoengineering，Institute of Geology and Geophysics，Chinese Academy of Sciences，Beijing 100029，China

2. Institutions of Earth Science，Chinese Academy of Sciences，Beijing 100029，China

3. University of Chinese Academy of Sciences，Beijing 100049，China

4. Sanshandao Gold Mine，Shandong Gold Mining（Laizhou）Co. ，Ltd. ，Laizhou 261442，Shandong，China

收稿日期: 2018-07-31 修回日期: 2018-11-01 网络出版日期: 2019-04-29

基金资助:

国家重点研发计划项目“黄渤海不同类型海岸带海水入侵发生机理研究”（编号：2016YFC0402802）和国家自然科学基金重点项目“海底采矿对地质环境的胁迫影响与致灾机理”. 编号：41831293

Received: 2018-07-31 Revised: 2018-11-01 Online: 2019-04-29

作者简介 About authors

刘国伟（1991-），男，山东菏泽人，博士研究生，从事矿山水文地质、工程地质研究工作l1014893489@163.com , E-mail：l1014893489@163.com

马凤山（1964-），男，河北吴桥人，研究员，博士生导师，从事地质工程与地质灾害研究工作fsma@mail.iggcas.ac.cn , E-mail：fsma@mail.iggcas.ac.cn

摘要

海底矿山突水是矿山开采亟待解决的问题，通过对矿山巷道水的研究，能够划分出矿山突水水源类型，进而对突水可能性作出预测。以山东三山岛金矿西山矿区地下水系统为例，对其31个水样的水化学资料进行多元统计分析研究。利用因子分析法对存在相关关系的变量进行空间降维处理，找出能够反映大于90%水样水化学信息的公共正交因子，以其作为系统聚类变量。运用系统聚类并结合实际地下水性质，将研究区地下水划分为典型的2类，然后建立矿区水源的Bayes线性模型，并对其进行验证。通过因子分析法和系统聚类分析法得出，-375 m中段涌水水源划分为2种类型，并得出2种具体的判别函数。结果表明：多元统计方法判别水源具有快速、准确且经济的特点。

关键词： 三山岛金矿 ; 矿山突水 ; 因子分析 ; 系统聚类分析 ; Bayes线性模型 ; 水源判别

Abstract

Xishan gold mine is subordinate to the Sanshandao gold mine and located in the coastal area of Laizhou Bay，Laizhou City，Shandong Province.In terms of geotectonic，it is located in the western part of the second up-warping zone of the Neocathaysian structural system，which is also Sanshandao-Cangshang fracture of the eastern side of Yishu deep facture.Xishan gold mine has been exploited in under the Bohai sea.Submarine mine water inrush has become an urgent problem to be solved in mine mining.The research on subway water can classify the types of mine groundwater and then predict the possibility of water inrush.Taking groundwater system of Sanshandao gold mine for example，hydrochemical data of 31 water samples was chosen to study with multivariate statistical analysis methods.By using factor analysis，it can reduce the spatial dimension of many variables with correlation relationship，and then identify principle factors which represent over ninety percent information of hydrochemical data.Hierarchical clustering analysis（HCA）uses these principle factors as clustering variables.HCA combined with actual groundwater quality divided the studied groundwater into 2 classic groups，then established and validated Fisher identification model.Through FA and HCA，the groundwater of -375 m subway were divided into two types which all have a specific discriminant function could determine which type of water is.The results represent that the water samples were divided into two typical M1 and M2 by factor analysis combined with principle component analysis.Among the 31 water samples，three of them were discriminated wrong，and the correct rate of discriminant reached 90.3%.Stepwise discriminant analysis and factor analysis were combined to process the seven conventional ions data.Bayes linear discriminant function and function values from 1740 exploration line to 2740 exploration line in -375 m sublevel was obtained.Bayes linear function discriminant results are completely consistent with the results of the factor analysis method，and the two selected discriminant water samples also agree.The consistency of the discriminant results shows that the factor analysis method and the stepwise analysis method are mutually verified.A multivariate statistical method was combined to obtain a quantitative Bayes linear discriminant function，which was applied to the recognition of the source type in the mining area.It was only necessary to know the ion concentration of the corresponding variable，and the water sample type could be determined by substituting it.This method has the characters of accurate，fast，and economical.

Keywords： Sanshandao gold mine ; mine water inrush ; factor analysis ; systematic cluster analysis ; Bayes linear model ; discriminate of water sources

PDF (3570KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

刘国伟, 马凤山, 郭捷, 杜云龙, 侯成录, 李威. 多元统计分析在滨海矿区水源识别中的应用——以三山岛金矿为例[J]. 黄金科学技术, 2019, 27(2): 207-215 doi:10.11872/j.issn.1005-2518.2019.02.207

LIU Guowei, MA Fengshan, GUO Jie, DU Yunlong, HOU Chenglu, LI Wei. Application of Multivariate Statistical Analysis to Identify Water Source in Coast Mine Area：As Example of Sanshandao Gold Mine[J]. Gold Science and Technology, 2019, 27(2): 207-215 doi:10.11872/j.issn.1005-2518.2019.02.207

矿产资源是人类生产活动中最重要的物质基础之一，它对保障社会经济的持续和谐发展意义重大。随着陆地矿产资源的日趋减少，海洋矿产的开发已成为全球的新兴产业，而且占有越来越重要的地位，尤其是对滨海基岩矿床的开采已是目前矿业开发的重点。截至目前，世界上许多国家已经对滨海矿山实行了工业化生产，矿山潜在突水灾害无疑会成为海底矿山开采关注的焦点，而矿山巷道水源识别对于突水预警具有至关重要的作用。近年来，国内外学者围绕水源识别开展了大量的研究工作，例如：运用主成分分析法预测混合水的潜在混合比^[1]；运用多元统计方法中的主成分分析法对水化学数据进行降维，确定出混合端元模型，并进行混合比计算^[2,3]；针对端元不确定性问题，Carrera等^[4]认为混合后的水样中包含了其端元值的信息，在没有确切端元信息的情况下，可以利用已知的混合水样进行端元值和混合比的计算，由此提出最大似然法（MIX法）；相比系统聚类，模糊聚类是一种更好的分类工具，被应用于地区地下水系统的水化学倾向分布的刻划^[5]；基于水化学信息，综合运用主成分分析法、聚类分析法和混合端元法来评估地下水水流和混合比，Long等^[6]运用主成分分析与混合端元分析相结合的方法来描述喀斯特地区地下水水流类型；采用多元统计方法中的分层聚类法和逐步判别分析方法来判别突水点类型归属^[7]；主成分分析与Bayes判别法判别突水水源；从水文地球化学的角度出发，提出采用主成分分析法和最大似然概率法对裂隙涌水水源及其混合比进行判识和计算^[8,9]。综上可知，多元统计方法是研究矿区地下水源的有效工具，在实践中得到了广泛应用。

本文以山东三山岛金矿为例，运用2种多元统计分析方法互相验证、互为辅助进行水源识别，具有精确、简易及经济等优点。通过对三山岛金矿西山矿区-375 m中段31个水样的水化学资料进行多元统计分析，包括因子分析、聚类分析和判别分析，最后建立矿区水源识别的判别函数。

1 矿区控水概况

西山矿区隶属于三山岛金矿，位于山东省莱州市莱州湾滨海地带，大地构造上处于新华夏系第二隆起带之西缘，沂沭断裂东侧的次级断裂——三山岛—仓上断裂（图1,2）。矿区主要控水断裂有 3条^[10]。F1断裂为矿区的控矿断裂，矿体分布在断层下盘，总体走向35°，倾向SE，倾角约为40°，在主裂面上发育有50~100 mm厚的断层泥，隔水性能良好。在F1断裂西侧发育有一条规模较小的伴生断裂F2，该断裂走向280°，倾角85°，上盘北移，下盘南移，具有扭性断层特点。断层两侧裂隙发育特征差异明显，其西侧NE向裂隙较发育、NW向裂隙少见；东侧主要发育NW向裂隙，靠近F2断裂，裂隙发育更密集。根据物探结果分析，F2断裂表现为明显的低阻特性，表明其具有良好的导水性能。矿区还发育有一条与F1断裂近直交并切断F1断裂的断层F3，其将F1断裂错断10~20 m。F3断层为一条横穿整个矿区的区域性断层，即三元—陈家大断裂，总体走向300°~310°，倾向NE，倾角近90°。F3断裂的主裂面位于南侧，其中有泥质物和断层角砾填充，南侧岩体完整性较好，主要发育NW-SE节理，节理面平直。F3断层北侧发育有NE-SW节理、SE-NW节理和水平节理，岩体破碎，节理开度大。根据目前勘采现状，F3断层深度应大于850 m，破碎带宽度为15~35 m，属于张性断裂。断层面未发现充填物，具有良好的导水性^[11]。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 区域地质构造图

Fig.1 Regional geological tectonic map

1.第四纪沉积物；2.早白垩世花岗闪长岩；3.早白垩世火山岩；4.早白垩世花岗岩；5.晚侏罗世花岗岩类；6.晚三叠世花岗岩类；7.元古宙岩石；8.超高压变质岩；9.太古宙岩石；10.主要断裂；11.焦家式金矿；12.玲珑式金矿

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 研究区地质简图

Fig.2 Geological sketch of study area

1.第四系；2.郭家岭花岗闪长岩；3.玲珑花岗岩；4.片麻岩；5.绢云母化花岗岩；6.绢云母化和硅化花岗碎裂岩；7.绢云母化和硅化碎裂岩；8.断裂；9.倾向；10.矿体

2 矿区水源识别的多元统计分析

本文收集了山东三山岛金矿西山矿区-375 m中段（图3）32个水样水化学成分资料（表1），化学数据包含K⁺、Na⁺、Ca²⁺、Mg²⁺、Cl^-、SO₄^2-、CHO^-、pH、电导率（EC）和总矿化度（TDC）10个变量。31个水样中7个阴阳离子占TDS总量的99%以上，所选离子具有合理性。水样自2009~2015年不间断获取，每年取一次水样，每次取200 mL。水样数据测量由中国地震局地质研究所完成。表中375-1~375-9号水点数据有多有少，这是因为-375 m巷道受季节性降雨和裂隙水间断性减少（或增多）所致，例如375-2号水点只在2005年8月取了一次水样，此后已干涸。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 水样采集位置图

Fig.3 Location map of water samples collection

表1 -375 m中段水样水化学参数

Table 1 Hydrochemical parameters of water samples from -375 m middle section

水样位置	K⁺/（mg·L^-1）	Na⁺/（mg·L^-1）	Ca²⁺/（mg·L^-1）	Mg²⁺ /（mg·L^-1）	Cl^-/（mg·L^-1）	SO₄^2-/（mg·L^-1）	HCO $_{3}^{-}$ /（mg·L^-1）	pH值（标准值）	EC/（μs·cm^-1）	TDS/（mg·L^-1）
375-1-1	248.4	10 400	761.5	1 287.9	19 852	2 305.4	219.6	7.19	44 900	35 074.8
375-1-2	197	9 750	801.6	1 222.3	18453.5	2 334.3	233.7	7.74	39 600	32 995
375-1-3	205	10 031.2	849.7	1 239.3	18 916.1	2 497.6	244.6	7.07	42 300	33 991.5
375-1-4	190.2	9 800	841.7	1 215	19 224.5	624.4	250.7	7.31	42 100	32 147.5
375-1-5	179.7	9 875	721.4	1 166.4	18 402.1	2 372.7	253.2	7.34	40 000	32 974.6
375-2-1	286	10 650	697.4	1 312.2	19 852	2 286.2	207.4	7.03	45 200	35 292.8
375-3-1	299.2	9 445	537.1	1 132.4	17 583.2	2 017.3	219.6	7.36	40 800	31 233.8
375-3-2	241	8 900	681.4	1 040	16 705.8	2 190.2	233.7	7.56	37 000	29 992.1
375-3-3	275.8	9 200	753.5	1 069.2	17 579.7	2 286.2	273.3	7.45	39 800	31 437.9
375-4-1	316.8	9 825	641.3	1 044.9	17 583.2	2 017.3	201.3	7.49	41 100	31 629.8
375-4-2	258	8 900	921.8	945.3	17 014.2	2 295.8	181.2	7.46	37 200	30 516.3
375-4-3	282.5	9 725	1 122.2	1 001.2	18 607.7	2 516.8	170.8	7.11	41 800	33 433.8
375-4-4	285.5	9 900	1 314.6	831.1	18 710.5	2 401.5	168.4	7.32	40 800	33 614.5
375-4-5	285.1	10 000	1 154.3	916.1	18 874.3	2 401.5	170.8	7.03	40 900	33 821.3
375-5-1	260	12 050	1 146.3	1 020.6	21 979	2 459.1	119.6	7.29	50 400	39 052.7
375-5-2	208	10 886.2	1 523	972	20 818	2 545.6	114.1	7.41	42 500	37 081.6
375-5-3	195	10 900	1 595.2	957.4	19 738.6	2 708.9	108	7.05	45 800	36 216.5
375-5-4	226.5	11 250	1 643.3	823.8	21 280.6	2 603.2	85.4	7.32	44 700	37 916.2
375-5-5	252.5	11 500	11 500	517.6	21 471.7	2 353.5	81.8	7.03	44 700	38 156.3
375-6-1	337.5	11 450	2 084.2	777.6	22 156.3	2 497.6	107.4	7.02	49 700	39 411.6
375-6-2	262	11 819	2 276.5	726.6	22 411.5	2 488	108	7.06	44 400	40 117.1
375-6-3	257.8	9 062.5	505	1 142.1	17 560.5	2 315	236.1	7.64	34 500	31 080.1
375-7-1	305	10 700	1 723.4	923.4	21 270	2 363.1	134.2	7.17	48 100	37 424.9
375-7-2	251	9 562.5	521	1 154.3	17 642.4	2 353.5	225.7	7.16	39 300	31 716.5
375-7-3	265.6	9 187.5	481	1 161.5	17 731.7	2 238.2	230	7.66	34 400	31 296.2
375-8-1	290.4	10 350	1 026	1 078.9	18 965.7	1 729.1	158.6	7.3	44 100	33 598.7
375-8-2	294	10 937.5	2 312.6	626.9	21 794.7	2 257.4	102.5	7.66	43 900	38 344.7
375-8-3	198.1	10 438	721.4	1 287.9	19 597.1	2 401.5	233.7	7.22	43 000	34 884
375-8-4	281.3	9 062.5	521	1 154.3	17 389.3	2 353.5	230	7.54	35 000	30 992.4
375-9-1	205	10 375	681.4	1 268.5	18 919	2 449.5	256.2	7.63	42 500	34 154.6
375-9-2	262.5	9 250	521	1 154.3	17 731.7	2 343.9	222.7	7.57	34 900	31 486.7

注：EC代表电导率，TDS代表总固体溶解量

新窗口打开| 下载CSV

2.1 因子分析（FA）

因子分析是主成分分析的推广，其利用主成分分析法的降维思想，从原始变量相关矩阵内部结构出发，把一些具有相关关系的变量归结为少数几个综合因子，是一种多元统计分析方法。因子分析根据相关性将变量进行分组，使得同组内变量相关性较高，不同组内变量相关性较低，每组变量用一个公共结构表示（公共因子）。本文水样中7种主离子占TDS总量的99%，电导率又与阴阳离子的量有关，与CHO^-直接相关，由此可知，所研究矿区水中各离子具有一定的相关性，其并非独立存在于矿区巷道水中。离子间相关性越大，代表地质信息重合程度越高。利用SPSS软件对10个变量进行相关性分析（表2），结果表明：Na⁺与Cl^-、EC、TDS具有良好的正相关性；Ca²⁺与Mg²⁺、CHO^-具有良好的负相关性，而与TDS具有正相关；Mg²⁺与CHO^-具有正相关性；Cl^-与EC、TDS具有良好的正相关性；CHO^-与TDS具有良好的负相关性；EC与TDS具有良好的正相关性。不作处理就对水样水化学数据进行聚类分析，将会导致重复使用变量数据，使变量数据所代表的地质信息被加权利用，导致计算的聚类结果发生畸变。这就要求首先对数据进行因子分析，把具有相关关系的变量归结为正交旋转因子，再以正交旋转因子作为变量进行聚类分析。

表2 变量相关系数矩阵

Table 2 Correlation matrix of variables

	K⁺	Na⁺	Ca²⁺	Mg²⁺	Cl^-	SO₄^2-	CHO^-	pH	EC	TDS
K⁺	1.000	0.010	0.194	-0.366	0.065	0.037	-0.270	-0.105	0.112	0.065
Na⁺	0.010	1.000	0.763	-0.496	0.956	0.260	-0.766	-0.522	0.878	0.969
Ca²⁺	0.194	0.763	1.000	-0.860	0.842	0.254	-0.880	-0.398	0.640	0.854
Mg²⁺	-0.366	-0.496	-0.860	1.000	-0.555	-0.237	0.829	0.235	-0.334	-0.576
Cl^-	0.065	0.956	0.842	-0.555	1.000	0.209	-0.777	-0.470	0.835	0.987
SO₄^2-	0.037	0.260	0.254	-0.237	0.209	1.000	-0.328	-0.152	0.117	0.345
CHO^-	-0.270	-0.766	-0.880	0.829	-0.777	-0.328	1.000	0.404	-0.621	-0.805
pH	-0.105	-0.522	-0.398	0.235	-0.470	-0.152	0.404	1.000	-0.624	-0.495
EC	0.112	0.878	0.640	-0.334	0.835	0.117	-0.621	-0.624	1.000	0.839
TDS	0.065	0.969	0.854	-0.576	0.987	0.345	-0.805	-0.495	0.839	1.000

新窗口打开| 下载CSV

本研究使用的31个水样水化学数据变量存在不同的量纲，不同量纲会引起各变量取值分散程度差异较大，这时总体方差将主要受方差较大的变量控制。为了消除量纲不同可能带来的影响，采用变量标准化的方法来处理变量，进而进行主成分分析。在SPSS软件中，因子分析或主成分分析所用的数据已作了标准化处理。运用SPSS软件对数据进行分析，提取初始因子，得到10个变量的特征值和总方差解释（表3）。若累计方差贡献率达到90%，则认为所提取的因子可以很好地解释数据所反映的水化学信息^[12,13,14]，因此提取4个初始因子，这4个初始因子解释了水化学信息总方差的91.79%。

表3 总方差解释

Table 3 Explanation of total variance

主成分	特征值			特征值
主成分	方差	方差/%	累计方差/%	方差	方差/%	累计方差/%
1	6.048	60.476	60.476	6.048	60.476	60.476
2	1.331	13.311	73.787	1.331	60.476	73.787
3	0.972	9.715	83.502	0.972	9.715	83.502
4	0.829	8.290	91.792	0.829	8.290	91.792
5	0.500	5.003	96.794
6	0.137	1.370	98.164
7	0.110	1.099	99.263
8	0.059	0.591	99.854
9	0.015	0.146	100.000
10	0.000002	0.000018	100.000

新窗口打开| 下载CSV

建立因子分析模型的目的是不仅要找出主因子，更重要的是找出主因子所代表的明确意义，以便对变量进行更深层次的分析。因子旋转在保证公因子对变量贡献率不变的情况下，又能够使公因子之间的区分更明显。运用方差最大旋转法对因子载荷进行旋转，经过12次迭代之后收敛，由表4可以看出，各变量在因子中方差差异性更加明显，更容易得出各变量在特定因子中的贡献值大小。F1在Na⁺、Ca²⁺、Mg²⁺、Cl^-、CHO^-和TDS变量上因子载荷较大，F2在Na⁺、pH和EC变量上因子载荷较大，F3在K⁺变量上因子载荷较大，F4在SO₄^2-变量上因子载荷较大。因子载荷矩阵是计算因子得分矩阵的基础，由此可以得出因子得分矩阵（表5）。

表4 因子载荷矩阵

Table 4 Factor component matrix

变量	因子载荷				旋转因子载荷				方差H_I²
变量	F1	F2	F3	F4	F11	F21	F31	F41	方差H_I²
K⁺	0.195	-0.712	-0.451	0.393	0.136	0.055	-0.938	-0.011	0.90
Na⁺	0.933	0.272	0.014	-0.049	0.695	0.652	0.178	0.083	0.95
Ca²⁺	0.918	-0.212	0.030	-0.213	0.915	0.282	-0.100	0.086	0.93
Mg²⁺	-0.722	0.575	-0.032	0.213	-0.869	0.033	0.359	-0.117	0.90
Cl^-	0.945	0.185	-0.024	-0.136	0.770	0.578	0.135	0.022	0.95
SO₄^2-	0.330	-0.166	0.794	0.473	0.170	0.076	0.006	0.977	0.99
CHO^- pH	-0.900	0.273	-0.059	0.096	-0.865	-0.289	0.185	-0.179	0.90
CHO^- pH	-0.575	-0.297	0.264	-0.557	-0.071	-0.861	0.195	-0.120	0.80
EC	0.837	0.353	-0.235	0.130	0.478	0.815	0.044	-0.052	0.90
TDS	0.966	0.161	0.084	-0.053	0.765	0.583	0.127	0.161	0.97

新窗口打开| 下载CSV

表5 因子得分系数矩阵

Table 5 Factor score coefficient matrix

变量	主成分得分系数
变量	F1	F2	F3	F4
K⁺	0.195	-0.712	-0.451	0.393
Na⁺	0.933	0.272	0.014	-0.049
Ca²⁺	0.918	-0.212	0.030	-0.213
Mg²⁺	-0.722	0.575	-0.032	0.213
Cl^-	0.945	0.185	-0.024	-0.136
SO₄^2-	0.330	-0.166	0.794	0.473
CHO^-	-0.900	0.273	-0.059	0.096
pH	-0.575	-0.297	0.264	-0.557
EC	0.837	0.353	-0.235	0.130
TDS	0.966	0.161	0.084	-0.053

新窗口打开| 下载CSV

2.2 聚类分析

聚类分析是多元统计学方法中的一个主要分支，其主要目标是根据变量特性进行聚类。聚类分析按照距离划分样本，使具有最相近特性的样本分为一类。聚类分析的结果就是在同类中的样本具有同性，在不同类中的样本具有异性。聚类分析中最常用的方法是系统聚类法，该方法能够提供任意样本与整个样本数据中的最初相似关系并形象地用系统聚类图（树状图）来表示。本文中，将原始数据标准化矩阵与因子得分系数矩阵相乘，得出因子得分矩阵，进而用因子得分作为聚类变量。在MATLAB软件中计算可得因子得分矩阵，如表6所示。以因子得分矩阵作为变量，对水样进行系统聚类分析，用Ward法进行类与类之间连接，用欧式距离表示因子得分值之间的相似性，欧式距离经常被用来描述2个样品的相似性，并且欧氏距离能够表达样品值的不同。欧式距离^[15]计算公式如下：

表6 水样因子得分矩阵

Table 6 Factor scores matrix of water samples

水样位置	因子得分
水样位置	F1	F2	F3	F4
375-1-1	0.145	1.681	-0.299	0.707
375-1-2	-4.660	0.781	1.220	-1.139
375-1-3	-1.536	1.969	0.566	0.858
375-1-4	-4.660	2.575	-3.173	-2.340
375-1-5	-3.639	1.595	0.991	-0.270
375-2-1	1.180	1.388	-0.940	1.441
375-3-1	-4.223	-0.812	-1.128	0.426
375-3-2	-6.907	-1.024	0.311	-0.483
375-3-3	-5.205	-0.758	-0.156	0.309
375-4-1	-3.236	-1.471	-1.133	0.118
375-4-2	-4.830	-1.697	0.311	-0.176
375-4-3	0.083	-0.688	-0.063	1.154
375-4-4	0.297	-1.496	-0.008	0.251
375-4-5	0.903	-0.763	-0.363	1.059
375-5-1	8.111	1.430	-0.023	0.119
375-5-2	3.954	0.656	1.285	-0.716
375-5-3	4.935	1.322	1.178	0.440
375-5-4	6.717	0.252	1.057	-0.463
375-5-5	13.600	-1.555	0.094	-1.265
375-6-1	10.150	-0.631	-0.999	1.186
375-6-2	9.644	0.187	0.185	0.061
375-6-3	-6.903	-1.162	0.638	-0.402
375-7-1	6.120	-0.197	-0.785	0.665
375-7-2	-3.798	0.163	-0.005	0.873
375-7-3	-6.697	-1.197	0.421	-0.492
375-8-1	0.153	-0.098	-1.786	-0.198
375-8-2	6.550	-1.847	0.027	-1.430
375-8-3	-0.864	2.346	0.589	0.270
375-8-4	-6.468	-1.429	0.325	0.153
375-9-1	-2.916	1.540	1.098	-0.542
375-9-2	-5.999	-1.060	0.569	-0.175

新窗口打开| 下载CSV

D_{i k} = \sqrt[]{\sum_{j = 1}^{m} (v_{i j} - v_{k j})^{2}}

（1）

式中：i，k代表2个不同的水样；j代表变量类型；v代表变量数值。欧氏距离D越小，则相似程度越好，其大小定量地表示出水样之间的亲疏程度。

采用SPSS软件对31个水样进行聚类分析，聚类结果如图4所示。由聚类谱系图可以看出，-375 m中段1740~2740行线水点类型可以明显划分为2类，其中375-1、375-2、375-3、375-4、375-7、375-8和375-9为第一类（M1），375-5和375-6为第二类（M2）。由水点位置图也可以看出，375-5和375-6水点位置距离较近，其水化学特征具有相似性。这其中有375-6-3、375-7-1和375-8-2 这3个判别错误的水样。从图3可以看出，375-6和375-7水点的位置相近，且在水样获取过程中是区域性，这就又增加了两点之间的相近性。聚类分析无法将这2个水化学极其相近的水样区分开来，因此产生了2个判别错误的水样。375-8-3水化学数据中的3个常规离子K⁺、Ca²⁺、Mg²⁺的误差分别达到25.5%、37.0%和24.2%，由此可以看出，这组数据的误差是由取样过程所造成的。以上结果说明利用SPSS软件对金矿水样进行多元统计分析时，最大的局限性就是不能准确判别模糊数据，即对水化学数据区别不大的水点作出了错误判断。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 系统聚类谱系图

Fig.4 Dendrogram of systematic cluster

2.3 逐步判别分析

在判别分析中，并非变量越多越好，而是应该选取主要变量进行判别分析，因为每一个变量在判别式中所起的作用不同，有些变量起主要作用，而有些变量起轻微作用，将起轻微作用的变量保留在判别式中，不仅会增加计算量，还会产生干扰，影响判别效果。逐步判别法主要是根据所给数据中的变量在每个判别式中的重要性来挑选出判别效果最优的变量进入判别式^[16]。逐步判别的基本思想是：逐步引入一个“最重要”的变量进入判别式，同时对先引入判别式的一些变量进行检验，如果其判别能力随着引入的新变量而变得不显著了，则将其从判别式中剔除，直至没有新的变量能够进入，依然没有旧变量需要剔除为止。

数据选取：根据系统聚类结果，剔除375-6-3、375-7-1和375-8-2这3个判别错误的水样，另随机选择375-1-2和375-4-4作为检验水样，对剩余的26个水样建立Bayes线性判别函数。在选择的所有变量中，pH、EC和TDS是水样中七大常规离子最直接的体现，并且与其有较高的相关性。在前人研究的基础上，选择K⁺、Na⁺、Ca²⁺、Mg²⁺、Cl^-、SO₄^2-和CHO^-作为判别分析变量，其数据如表1所示。

模型建立：在SPSS软件中对所选取的水样变量数据进行逐步判别分析，得到Bayes线性判别函数：

M 1 = 0.037 \times V (N a) + 0.338 \times V (C H O) - 216.457

（2）

M 2 = 0.022 \times V (N a) + 0.356 \times V (C H O) - 250.739

（3）

式中：M1代表水样类型1、M2代表水样类型2； V（Na）、V（CHO）代表相应离子的质量浓度。根据Bayes后验概率最大原则，将相应离子浓度代入Bayes线性判别函数中，哪一个判别函数中的数值较大，就属于哪一类水样。将26个水样和3个检验水样的相应离子浓度代入到上述2个Bayes线性判别函数中，所得数据如表7所示。通过交叉对比图4与表7发现，运用逐步判别分析法建立的Bayes线性函数对于水源类型识别的正确率达到了100%。结合多元统计分析方法，能够得出定量分析水源类型的Bayes线性函数。在西山矿区，开采活动不仅加快了地下水的流动速率，而且破坏了第四纪含水层。F3断裂和NW断层控制着海水和淡水的横向补给水量，并有一小部分的垂直补给，其补给深度达到了-510 m。更为重要的是，在-375 m中段，大部分水点的淡水补给甚至达到了40%^[16]。M1代表水样距离F3断层较近，对375-5和375-6水点进行实时监测及重点水流量数据的监测，能够对通过F3通道突水的可能性做出精准预测。

表7 水样类型的判别

Table 7 Identification of water samples

点号	Bayes函数值
点号	M1	M2	类型
375-1-1 375-1-3 375-1-4 375-1-5 375-2-1 375-3-1 375-3-2 375-3-3 375-4-1 375-4-2 375-4-3 375-4-5 375-5-1	242.5498 237.3542 230.8616 234.4816 247.6762 207.2148 191.8156 216.3004 215.0894 174.0706 201.0804 211.2554 269.7998	230.4202 219.9806 211.5024 215.1574 238.4558 190.3102 170.2684 190.8676 202.5736 159.6634 192.2126 203.7626 279.5202	M1 M1 M1 M1 M1 M1 M1 M1 M1 M1 M1 M1 M2
375-5-2 375-5-3 375-5-4 375-5-5 375-6-1 375-6-2 375-7-2 375-7-3 375-8-1 375-8-3 375-8-4 375-9-1 375-9-2	224.8802 223.3290 228.6402 236.6734 243.4762 257.3320 213.6241 201.2025 220.0818 248.7216 196.5775 253.9956 201.0476	229.5296 228.8770 239.0118 248.7846 251.8558 267.4750 196.4774 181.5960 215.9982 234.8644 176.3460 236.7634 182.7464	M2 M2 M2 M2 M2 M2 M1 M1 M1 M1 M1 M1 M1
检测水点	Bayes函数值
检测水点	M1	M2	类型
375-1-2	223.2656	205.9684	M1
375-4-4	206.7442	199.0778	M1

新窗口打开| 下载CSV

3 结论

（1）以山东三山岛西山金矿水样的水化学信息为基础，对水化学数据进行预处理，运用主成分分析中的因子分析法将水样划分为典型的M1和M2类型。其中，31个水样出现了3个错误判别，其判别正确率达到了90.3%。

（2）逐步分析法与因子分析法相结合，对所取水样中七大常规离子数据进行逐步分析，得出了 -375 m中段1740~2740勘探线的Bayes线性判别函数及函数值。Bayes线性函数判别结果与因子分析法的结果完全一致，并且所选择的2个判别水样也与其相吻合。判别结果的一致性表明：因子分析法与逐步分析法相互验证。

（3）结合多元统计方法，得出了定量化的Bayes线性判别函数，将其运用于矿区水源类型识别中，只需给出相应变量的离子质量浓度，代入该函数中便可判别其水样类型。该方法具有准确、快速且经济的特点。

（4）本文运用的2种多元统计方法既相辅相成又互相检验，增加了结论的可信度和准确率，而不仅仅是运用单一方法，这不同于大部分相关研究。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Christophersen

，Hooper

R P

Multivariate analysis of stream water chemical data：The use of principal components analysis for the end‐member mixing problem

［J］. Water Resources Research，1992，28（1）：99-107.