惩罚与激励双视角下绿色矿山建设的演化博弈与仿真

doi:10.11872/j.issn.1005-2518.2021.06.067

惩罚与激励双视角下绿色矿山建设的演化博弈与仿真

陈婉菁^,, 吴泽斌^,

江西理工大学经济管理学院，江西赣州 341000

Evolutionary Game and Simulation of Green Mine Construction from the Perspective of Punishment and Incentive

CHEN Wanjing^,, WU Zebin^,

School of Economic Management，Jiangxi University of Technology，Ganzhou 341000，Jiangxi，China

通讯作者: 吴泽斌（1977-），男，江西赣州人，教授，从事区域资源开发与管理工作。wuzebingz@sina.com

收稿日期: 2021-06-02 修回日期: 2021-09-24

基金资助:

2020年度江西省高校人文社会科学重点研究基地项目“自治走向善治：矿产资源开发治理模式研究”. JD20049

Received: 2021-06-02 Revised: 2021-09-24

作者简介 About authors

陈婉菁（1997-），女，江西赣州人，硕士研究生，从事区域资源开发与管理工作1368975112@qq.com , E-mail：1368975112@qq.com

摘要

为推进绿色矿山建设、转变矿业发展方式，基于博弈论和系统动力学构建地方政府和矿山企业的博弈模型，并引入动态惩罚机制和动态激励机制，对博弈双方进行稳定性、均衡点分析以及模型仿真。研究结果表明：在静态机制下，地方政府和矿山企业的行为呈周期性变化，不能达到稳定均衡状态；当地方政府采用动态惩罚机制和动态激励机制时，演化博弈过程呈收敛态势并最终趋于稳定。将演化博弈模型与系统动力学理论相结合进行仿真分析，能够对博弈双方的行为做出较科学的解释，为绿色矿山建设的奖惩机制设计与管理实践提供参考依据。因此，我国在推进绿色矿山建设的过程中，需要建立系统的奖惩机制，政企协同发力、合作推进，实现“ 金山银山”与“ 绿水青山”的共赢。

关键词： 绿色矿山建设 ; 动态惩罚机制 ; 动态激励机制 ; 演化博弈 ; 模型仿真

Abstract

Promoting the construction of green mines is an effective way to strengthen the construction of ecological civilization and promote the high-quality development of mining industry.This paper constructs a game model of local government and mining enterprises based on game theory and system dynamics from the perspective of punishment and incentive，and introduces dynamic punishment and dynamic incentive mechanism to analyze the stability，equilibrium point and model simulation of both sides of the game.The results are as follows：Firstly，when the amount of punishment and incentive is fixed，the game process between local government and mining enterprises will change with the cycle，and can’t reach a stable equilibrium state.Secondly，under the dynamic punishment and dynamic incentive mechanism，the evolution process of local governments and mining enterprises gradually converges and finally stabilizes to the equilibrium value.Increasing the intensity of punishment helps to enhance the probability of enterprises to promote the construction of green mines.However，the direct cost behavior of large government incentives will reduce the willingness of enterprises to participate in the construction of green mines.The combination of evolutionary game model and system dynamics theory can give a more scientific explanation to the behavior of both sides of the game and provide reference for the design and management practice of reward and punishment mechanism of green mine construction.Therefore，the construction of green mines needs to establish a system of reward and punishment mechanism，government and enterprises work together to promote the development of green mines.

Keywords： green mine construction ; dynamic punishment mechanism ; dynamic incentive mechanism ; evolutionary game ; model simulation

PDF (5957KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

陈婉菁, 吴泽斌. 惩罚与激励双视角下绿色矿山建设的演化博弈与仿真[J]. 黄金科学技术, 2021, 29(6): 884-898 doi:10.11872/j.issn.1005-2518.2021.06.067

CHEN Wanjing, WU Zebin. Evolutionary Game and Simulation of Green Mine Construction from the Perspective of Punishment and Incentive[J]. Gold Science and Technology, 2021, 29(6): 884-898 doi:10.11872/j.issn.1005-2518.2021.06.067

推进绿色矿山建设是全面贯彻落实新发展理念、加强矿业领域的生态文明建设、促进矿业转型和高质量发展的有效路径。绿色矿山建设包括生态环境治理、自然资源开发与利用、可持续创新型智慧矿山和矿山循环经济等内容（刘建兴，2014）。2017年，国土资源部、财政部、环境保护部、国家质检总局、银监会和证监会联合印发《关于加快建设绿色矿山的实施意见》，要求加快绿色矿山的建设进程，加大政策的支持力度。2019年，在绿色矿山遴选过程中，共有953家矿山企业被纳入全国绿色矿山名录。虽然我国已经出台了加快绿色矿山建设的指导文件，地方政府和企业也在积极探索推进绿色矿山建设，但现阶段的政策在矿山企业的违规治理方面还不完善，未将专项整治与政策激励相结合，仍有较大的提升空间。在推进绿色矿山建设过程中，尚存在地方政府与企业的双方博弈、主动性欠缺，评选中有虚报、瞒报现象，甚至存在参评时执行一套标准、评选后执行另一套标准的情况。截至2018年底，全国矿山开采占用损毁土地面积约为36×10⁹ m²，其中正在开采的矿山约占37%（自然资源部，2020），结合当前新形势、新问题和新要求，如何更有效地推进绿色矿山建设，转变我国矿业发展方式，是当下重要命题。

关于绿色矿山建设的研究，主要聚焦3个方面：（1）绿色矿山建设激励政策研究。切实落实税费方面的优惠政策，解决新常态下绿色矿山建设面临的问题（杨俊鹏等，2017）；延伸产业链、落实各方责任，促进江西省绿色矿山建设的发展（郑先坤等，2018）；对绿色矿山建设优惠政策缺失问题进行探讨（靳利飞等，2014）。（2）绿色矿山建设绩效评价。钟琛等（2017）、李芬等（2018）、王永卿等（2019）、赵国彦等（2019）和Pell et al.（2018）对绿色矿山建设的效果进行评价与考核分析。（3）绿色矿山数字建设。建立综合调度指挥集成平台，提高矿山建设的调度管理效率（谭章禄等，2014）；设计智慧露天矿山建设的基本框架及体系（张瑞新等，2019）；构建深地资源安全高效的矿业开采框架和矿山循环经济模式（李夕兵等，2019）；研制露天矿自动化运输控制系统（Igor et al.，2017）。从研究内容来看，现有研究在绿色矿山建设领域取得了丰硕的成果，但是关于如何规范地方政府和当地企业行为的研究较少，且大多以定性分析为主，定量测评或构建模型求解的研究甚少。从研究视角来看，现有研究多以税收优惠、专项保证金等激励视角为主，而从惩罚视角探讨绿色矿山建设的研究较少，仅靠激励政策有可能带来损害绿色矿山建设实施效果、降低政府补助金利用效益和增加监管难度等消极作用。因此，既注重激励也注重惩罚，更符合绿色矿山建设主体行为实际，从惩罚与激励双视角出发探讨绿色矿山建设更具现实意义。

绿色矿山建设是多主体参与的过程，随机性和变动性是其重要特征。吴信科等（2019）对地方政府和矿山企业的联动机制建设进行了研究，但在动态博弈方面的分析还有待深入。演化博弈理论具有有限理性假设以及不完全信息的优势，适用于地方政府和矿山企业在绿色矿山建设中的复杂动态决策。绿色矿山建设是一个长期性、周期性的问题，运用系统动力学进行政策仿真，能够对地方政府和矿山企业的博弈情况做出较为科学的解释，从而得到博弈最优结果。鉴于此，在借鉴前人研究方法（朱庆华等，2014；王志强等，2019；谢识予，2001）的基础上，从政府惩罚与激励相结合的双视角出发，将演化博弈理论与系统动力学理论相结合，建立地方政府和矿山企业的系统动态（System Dyna-mic，SD）演化博弈分析模型，并在此基础上进一步分析动态惩罚与动态激励机制下博弈双方演变的实际情况，通过Vensim软件仿真演示双方策略行为，为绿色矿山建设的奖惩机制设计与管理实践提供参考依据。

1 地方政府与矿山企业的博弈模型

1.1 模型假设

（1）博弈主体假设

绿色矿山建设中主要参与者是地方政府和矿山企业。地方政府是奖罚的实施方，矿山企业是奖罚的承受方，双方均是有限理性主体在信息不对称的条件下通过多次博弈来找寻最优策略。基于博弈论和系统动力学构建地方政府和矿山企业的博弈模型，充分考虑了双方主体的角色、地位和利益诉求，体现了绿色矿山建设过程中地方政府和矿山企业两大主体行为协同耦合的发展机理，从一定程度上为解决绿色矿山建设中企业内生动力不足和政府心有余而力不足的困境提供了决策参照。

对于地方政府而言，政府部门作为博弈一方不仅会考虑公共利益，也会考虑自身利益。在推进绿色矿山建设过程中，地方政府采取有效措施对矿山企业进行引导、鼓励，最终实现社会经济和生态环境的良性发展以及自身利益的最大化。政府的可选策略分为“高奖惩”和“低奖惩”，对应的初始概率分别为x和 $1 - x$ ， $0 \leq x \leq 1$ 。“高奖惩”策略是指政府颁布并落实促进矿山企业参与绿色矿山建设的奖罚政策，如补贴、以奖代补、贴息、高额罚金和矿山关停等形式；“低奖惩”策略是指政府仅采取以鼓励和宣传为主的方式推广绿色矿山建设，而对矿山企业违规行为无切实的奖罚措施或奖罚过低对矿山企业无实质效用。

对矿山企业而言，企业以利润最大化为重要目标，但是矿山企业在实施绿色发展过程的前期，需要淘汰落后技术，引进先进技术，耗费一定的人力、物力和资源对矿山进行整体规划，会减少企业当前的收益。而在外部奖罚政策推动下，矿山企业推进绿色矿山建设反而会获得额外收益。矿山企业可选策略分为“高参与”和“低参与”，其初始概率分别为y和 $1 - y$ ， $0 \leq x \leq 1$ 。“高参与”策略是指企业积极响应并推进科学、合理的绿色矿山建设；“低参与”策略是指矿产资源开发过程中，对矿山地质勘测、生态环境修复和土地复垦等工作参与性不高。

（2）其他变量假设

结合现阶段绿色矿山建设的发展情况，将影响双方博弈的因素纳入其中，进一步构建博弈收益矩阵。对于地方政府来说，假设“a”是政府选择“高奖惩”策略所支出的直接成本，包括财政补贴、购买服务等对企业的资金支持和额外增加的监管、培训费用；“b”是政府“高奖惩”所付出的间接成本，如政策推行、媒体宣传和专项调研等活动所需的成本。此外，假设“c”是指企业积极参与绿色矿山建设时政府获得的额外收益，例如：解决矿地矛盾、过度开采和环境破坏等问题；“d”是指政府对不符合绿色矿山标准而额外支付的外部成本，如地质灾害、生态环境和矿区稳定等治理成本。对于矿山企业来说，假设“e”是指企业在经营过程中所获利润；“f ”是指企业积极参与绿色矿山建设获得的间接收益；“g”是指企业引进绿色先进技术和员工培训等所需成本；“h”是指矿山企业所受到的罚金，包括违规、违法处罚等。

根据以上假设，博弈双方为了自身利益最大化，在策略组合中进行多次博弈，双方博弈支付矩阵可由表1表示。

表1 静态博弈下地方政府和矿山企业博弈收益矩阵

Table 1 Game income matrix of local government and mining enterprises under static game

博弈双方		矿山企业
博弈双方		高参与y	低参与1-y
地方政府	高奖惩x	［c-a-b，a+e+f-g］	［h-b-d，e-h］
地方政府	低奖惩1-x	［c-b，e+f-g］	［-b-d，e］

新窗口打开| 下载CSV

1.2 模型建立

在借鉴以往学者关于模型构建的研究成果（王志强等，2019；谢识予，2001；Gardner，1995），结合绿色矿山建设特点，根据以上假设，已知政府的选择是“高奖惩”和“低奖惩”策略，矿山企业的策略是“高参与”和“低参与”绿色矿山建设。

对于地方政府而言，选择“高奖惩”与“低奖惩”策略的期望收益 $U_{11}$ 、 $U_{12}$ 和平均收益 ${\bar{U}}_{1}$ 分别为

$U_{11} = y (c - a - b) + (1 - y) (h - b - d)$

（1）

$U_{12} = y (c - b) + (1 - y) (- b - d)$

（2）

${\bar{U}}_{1} = x U_{11} + (1 - x) U_{12}$

（3）

对于矿山企业而言，选择“高参与”与“低参与”绿色矿山建设的期望收益 $U_{21}$ 、 $U_{22}$ 和平均收益 ${\bar{U}}_{2}$ 分别为

$U_{21} = x (a + e + f - g) + (1 - x) (e + f - g)$

（4）

$U_{22} = x (e - h) + (1 - x) e$

（5）

${\bar{U}}_{2} = y U_{21} + (1 - x) U_{22}$

（6）

由此可知，地方政府“高奖惩”策略和矿山企业“高参与”绿色矿山建设策略下的复制动态方程 $F (x)$ 、 $F (y)$ 分别为

$\begin{array}{l} F (x) = \frac{d x}{d t} = x (U_{11} - {\bar{U}}_{1}) + x (1 - x) \\ [h - y (a + h)] \end{array}$

（7）

$\begin{array}{l} F (y) = \frac{d y}{d t} = y (U_{21} - {\bar{U}}_{2}) + y (1 - y) \\ [x (a + h) + f - g] \end{array}$

（8）

2 静态机制下演化博弈模型的稳定性及仿真分析

2.1 地方政府“奖惩”策略的演化均衡分析

由复制动态方程F（x）可知， $y = \frac{h}{a + h}$ 是动态博弈的均衡值。通过分析矿山企业采取“高参与”策略概率的大小，来判断地方政府所采取的策略。 $\frac{h}{a + h}$ 是指地方政府从企业收取的罚金占政府“高奖惩”策略中付出直接成本与收取企业罚金之和的比例，罚金的占比越高，矿山企业采取“高参与”策略概率越接近于1。

若 $y = \frac{h}{a + h}$ ，则F（x）=0，无论x取任何值时，地方政府都有稳定状态。

若 $y \neq \frac{h}{a + h}$ ，令F（x）=0，则x=0和x=1是地方政府策略复制动态方程的2个稳定点，对F（x）求导可得：

$\frac{\partial F (x)}{\partial x} = (1 - 2 x) [h - y (a + h)]$

（9）

在参照谢识予（2001）研究成果的基础上，当 $\frac{\partial F (x)}{\partial x} < 0$ 时才能满足演化稳定策略，且0<h<a+h，因此对上述2种情况进行分析。

（1）当 $y > \frac{h}{a + h}$ 时，有 ${\frac{\partial F (x)}{\partial x}|}_{x = 0} < 0$ ， ${\frac{\partial F (x)}{\partial x}|}_{x = 1} > 0$ ，此时x=0是演化稳定策略，地方政府采取“低奖惩”策略促进企业进行绿色矿山建设。

（2）当 $y < \frac{h}{a + h}$ 时，有 ${\frac{\partial F (x)}{\partial x}|}_{x = 0} > 0$ ， ${\frac{\partial F (x)}{\partial x}|}_{x = 1} < 0$ ，此时x=1是演化稳定策略，地方政府采取“高奖惩”策略促进企业进行绿色矿山建设。

当矿山企业“高参与”策略的概率大于动态博弈的均衡值时，地方政府倾向于选择“低奖惩”策略；当矿山企业“高参与”策略的概率小于动态博弈的均衡值时，地方政府选择“高奖惩”策略的概率更高。

2.2 矿山企业“参与”策略的演化均衡分析

由复制动态方程F（y）可知， $x = \frac{g - f}{a + h}$ 也是动态博弈的均衡值。通过分析地方政府采取“高奖惩”策略概率的大小，来判断矿山企业所采取的策略。 $\frac{g - f}{a + h}$ 是指矿山企业积极参与绿色矿山建设所需成本与间接收益之差占政府“高奖惩”策略中付出直接成本与收取企业罚金之和的比例，矿山企业积极参与绿色矿山建设所需成本与间接收益之差的占比越大，地方政府采取“高奖惩”策略概率越接近于1。

若 $x = \frac{g - f}{a + h}$ ，则F（y）=0，无论y取任何值时，矿山企业都有稳定状态。

若 $x \neq \frac{g - f}{a + h}$ ，令F（y）=0，则y=0和y=1是矿山企业策略复制动态方程的2个稳定点，对F（y）求导可得：

$\frac{\partial F (y)}{\partial y} = (1 - 2 y) [x (a + h) + f - g]$

（10）

当 $\frac{\partial F (y)}{\partial y} < 0$ 时才能满足演化稳定策略，因此对不同情况进行分析。

（1）当 $g - f < 0$ 时，恒有 $x > \frac{g - f}{a + h}$ ，此时y=1是演化稳定策略，矿山企业会采取“高参与”策略进行绿色矿山建设。

（2）当 $g - f > a + h$ 时， $\frac{g - f}{a + h} > 1$ ，恒有 $x < \frac{g - f}{a + h}$ ，此时y=0是演化稳定策略，矿山企业会采取“低参与”策略进行绿色矿山建设。

（3）当 $0 < g - f < a + h$ 时，分2种情况分析：

当 $x > \frac{g - f}{a + h}$ 时，有 ${\frac{\partial F (y)}{\partial y}|}_{y = 0} > 0$ ， ${\frac{\partial F (y)}{\partial y}|}_{y = 1} < 0$ ，此时y=1是演化稳定策略，矿山企业会采取“高参与”策略进行绿色矿山建设。

当 $x < \frac{g - f}{a + h}$ 时，有 ${\frac{\partial F (y)}{\partial y}|}_{y = 0} < 0$ ， ${\frac{\partial F (y)}{\partial y}|}_{y = 1} > 0$ ，此时y=0是演化稳定策略，矿山企业会采取“低参与”策略进行绿色矿山建设。

当矿山企业引进绿色先进技术、员工培训等所需成本与企业积极参与绿色矿山建设的间接收益之差越大时，矿山企业倾向于采取“低参与”策略。地方政府也要相应地提高“高奖惩”策略中付出直接成本及收取的企业罚金金额，来提高企业参与绿色矿山建设的积极性。

2.3 地方政府和矿山企业混合策略演化均衡分析

由以上博弈分析可以看出，不同初始情况下地方政府和矿山企业的演化策略不同。从现阶段企业参与绿色矿山建设的情况来看，矿山企业积极参与绿色矿山建设的成本要大于参与绿色矿山建设所带来的间接收益。同时，政府也会通过激励手段和惩罚措施来避免极端情况的产生。因此，本文仅分析 $0 < g - f < a + h$ 的情况下，地方政府和矿山企业2个主体的演化均衡。地方政府和矿山企业的演化博弈可由二维动力系统方程表示，对其进行稳定性分析得出 5个纳什均衡点，分别为 $E_{1} (0,0)$ ， $E_{2} (0,1)$ ， $E_{3} (1,0)$ ， $E_{4} (1,1)$ ， $E_{5} (x_{0}, y_{0})$ 。其中，点 $E_{5} (x_{0}, y_{0})$ 为 $(\frac{g - f}{a + h}, \frac{h}{a + h})$ 。

根据Friedman（1998）提出的观点，演化系统均衡点的稳定性可由该系统得到的雅克比矩阵的局部稳定性分析中得到，对于复制动态方程求其雅克比矩阵 J，可表示为

$J = [\begin{matrix} \frac{\partial F (x)}{\partial x} & \frac{\partial F (x)}{\partial y} \\ \frac{\partial F (y)}{\partial x} & \frac{\partial F (y)}{\partial y} \end{matrix}] = [\begin{matrix} (1 - 2 x) [h - y (a + h)] & - x (1 - x) (a + h) \\ y (1 - y) (a + h) & (1 - 2 y) [x (a + h) + f - g] \end{matrix}]$

（11）

若均衡点满足det（ J ）>0、tr（ J ）<0，则均衡点满足演化动态过程中任一局部渐进稳定的不动点，与演化稳定策略相对应。根据雅可比矩阵局部稳定性分析方法，均衡点稳定性分析结果见表2。

表2 均衡点的稳定性分析结果

Table 2 Stability analysis results of equilibrium point

均衡点	det（ J ）	判断正负	tr（ J ）	判断正负	均衡点类型
（0，0）	h（f-g）	-	h+f-g	不确定	鞍点
（0，1）	a（f-g）	-	a+f-g	不确定	鞍点
（1，0）	-h（a+h+f-g）	-	a+f-g	不确定	鞍点
（1，1）	-a（a+h+f-g）	-	h+f-g	不确定	鞍点
$(x_{0}, y_{0})$	$\frac{a h (g - f) (a + h + f - g)}{{(a + h)}^{2}}$	+	0	0	中心点

新窗口打开| 下载CSV

基于以上分析，点 $(x_{0}, y_{0})$ 对应的特征根 $λ_{1}$ 、 $λ_{2}$ 为纯虚根，说明点 $(x_{0}, y_{0})$ 不是渐进稳定的演化平衡点，系统演化的轨迹是一个绕着中心点的闭轨线环，而闭轨线环不经过中心点。

2.4 模型仿真及分析

在地方政府促进矿山企业参与绿色矿山建设的演化博弈过程中，博弈双方会根据对方的策略来调整自己的策略，因此采用系统动力学的方法分析博弈过程中均衡解稳定性的情况，从而分析得到博弈最优结果。参考赣州市某露天矿开采及地质环境治理工程案例，博弈模型的参数取值需满足条件 $0 < g - f < a + h$ ，假设a=0.51，b=0.43，c=1.5，d=1.07，e=3.2，g=1.71，f=0.91，h=1（单位：百万元）。依据前文提出的复制动态方程，运用仿真软件Vensim建立地方政府和矿山企业的演化博弈模型，其中，流位变量分别为地方政府“高奖惩”和矿山企业“高参与”；流率变量分别为地方政府“奖惩速率”和矿山企业“参与绿色矿山建设速率”。外部变量共有8个，中间变量共有16个，如图1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 地方政府和矿山企业的演化博弈模型（SD模型）

注：图中“U₁”表示政府的收益；“U₂”表示企业的收益；“G”表示政府高奖惩或企业高参与的选择；“D”表示政府低奖惩或企业低参与的选择；“U_2DG”表示企业低参与、政府高奖惩的企业期望收益，以此类推

Fig.1 Evolutionary game model between local government and mining enterprises（SD model）

当 $0 \leq \frac{h}{a + h} \leq 1$ 且 $0 \leq \frac{g - f}{a + h} \leq 1$ 时，政府采取“高奖惩”策略的初始概率为x=0.4，矿山企业采用“高参与”策略进行绿色矿山建设的初始概率为y=0.2，整个系统的博弈演化趋势曲线如图2所示。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 静态机制下地方政府与矿山企业演化博弈的仿真轨迹

注：图中“x=0.4，y=0.2”表示地方政府和矿山企业演化博弈的初始概率

Fig.2 Simulation trajectory of evolutionary game between local government and mining enterprises under static mechanism

由此可见，系统的博弈演化过程是围绕稳定中心周期性运动的闭轨线环，地方政府和矿山企业2个群体的博弈过程呈现出不稳定的周期性行为模式，且博弈行为不易控制。表明地方政府和矿山企业在进行绿色矿山建设过程中，也在不断调整自己的策略。

当 $0 \leq \frac{h}{a + h} \leq 1$ 且 $0 \leq \frac{g - f}{a + h} \leq 1$ 时，假设政府采取“高奖惩”策略的初始概率为x=0.4，企业采用“高参与”策略进行绿色矿山建设的初始概率分别为y=0.2和y=0.8时，博弈演化过程随时间变化的曲线如图3（a）所示；假设政府采取“高奖惩”策略的初始概率为x=0.7，企业采用“高参与”策略进行绿色矿山建设的初始概率为y=0.2和y=0.8时，博弈演化过程随时间变化的曲线如图3（b）所示。从结果来看，在给定地方政府采取“高奖惩”策略的初始概率的情况下，对于y的不同初始值，企业采用“高参与”策略进行绿色矿山建设的概率随时间呈现周期性的波动状态，且该系统没有演化均衡点。从波动幅度来看，当x的初始值不同时，博弈演化过程随时间变化的曲线存在差异，y=0.2时的波动幅度大于y=0.8时，且当博弈双方至少有一方的策略发生变化时，另一方就要根据对方的策略来调整自身策略。矿山企业选择“高参与”策略的行为仍随着时间不断变动，不稳定。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 静态机制下不同初始值的企业参与绿色矿山建设的演化过程

Fig.3 Evolution process of enterprises with different initial values participating in green mine construction under static mechanism

目前绿色矿山建设治理成本高、难度大，不能为企业带来太多的直接经济效益，加之矿山开采通常采用露天开采模式，进一步加大了生态环境修复的难度。对地方政府来说，若企业进行绿色矿山建设，可以减少当地矿山修复的实际成本，同时也带来正面宣传等间接收益。考虑到这些影响因素均对绿色矿山建设博弈系统产生的影响，因此选取a、h、g、f共4个变量来模拟变量数值变化对矿山企业行为的变化。在满足 $0 \leq \frac{h}{a + h} \leq 1$ 且 $0 \leq \frac{g - f}{a + h} \leq 1$ 时，假设初始概率为x=0.2、y=0.4，改变不同的变量值，探究矿山企业的博弈演化过程的变化曲线。从仿真结果来看，当a的数值变大时，曲线如图4（a）所示，提高政府的财政补贴等资金支持，矿山企业的博弈曲线变短且幅度变小，说明提高政府的财政补贴虽然会提高矿山企业的速率，但是企业的概率不能达到理想状态。当h的数值变大时，曲线如图4（b）所示，提高矿山企业所受到的罚金，矿山企业的博弈曲线变短，说明提高罚金会加快矿山企业“高参与”的速率。当g的数值减小时，曲线如图4（c）所示，适当减少企业引进先进技术的成本，矿山企业的博弈曲线变短；若增加企业引进先进技术的成本，矿山企业的博弈曲线变长。当f的数值增大时，曲线如图4（d）所示，适当提高企业积极参与绿色矿山建设获得的间接收益，矿山企业的博弈曲线变短；若减少企业参与绿色矿山建设获得的间接收益，矿山企业的博弈曲线变长。说明g-f的值，即企业引进先进技术的成本与企业间接收益的差值需要在一个合理的范围内，超过一定的范围会降低矿山企业参与绿色矿山建设的速率。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 改变其他变量对矿山企业参与绿色矿山建设的影响

Fig.4 Influence of changing other variables on mining enterprises’ participation in green mine construction

3 动态惩罚与动态激励机制下演化博弈模型分析及仿真

3.1 动态惩罚机制对模型的影响

（1）稳定性分析

以上分析是假设矿山企业所受到的惩罚罚金是固定值，是静态机制。然而，从实际情况来看，矿山企业对推进绿色矿山建设所采取的行为不尽相同，导致博弈双方最终的决策行为不稳定，因而针对不同的行为采用不同的惩罚措施加以监管、修正，称为动态惩罚机制。假设地方政府对矿山企业实施惩罚的罚金 $h$ 与矿山企业采用“低参与”策略进行绿色矿山建设的行为成正比关系，此时地方政府对矿山企业的惩罚金额关系式为 $h (y) =$ $q (1 - y)$ ，其中，q为矿山企业所受惩罚的严重程度，基于此动态惩罚机制下，地方政府和矿山企业演化博弈收益矩阵如表3所示。

表3 动态惩罚机制下地方政府和矿山企业博弈收益矩阵

Table 3 Game profit matrix of local government and mining enterprises under dynamic punishment mechanism

博弈双方		矿山企业
博弈双方		高参与y	低参与1-y
地方政府	高奖惩x	［c-a-b，a+e+f-g］	［h（y）-b-d，e-h（y）］
地方政府	低奖惩1-x	［c-b，e+f-g］	［-b-d，e］

新窗口打开| 下载CSV

下面对动态惩罚机制下地方政府和矿山企业的混合博弈策略进行稳定性分析，将 $h (y) = q (1 - y)$ 代入之前的复制动态方程，结果如下：

$\{\begin{matrix} F (x) = \frac{d x}{d t} = x (1 - x) [h - y (a + h (y))] \\ F (y) = \frac{d y}{d t} = y (1 - y) [x (a + h (y)) + f - g] \end{matrix}$

（12）

令 $\frac{d x}{d t}$ 、 $\frac{d y}{d t} = 0$ ，得到5个复制动态均衡点： $E_{1}^{'} (0,0)$ 、 $E_{2}^{'} (0,1)$ 、 $E_{3}^{'} (1,0)$ 、 $E_{4}^{'} (1,1)$ 、 $E_{5}^{'} (x^{*}, y^{*})$ ，其中，点 $E_{5}^{'} (x^{*}, y^{*})$ 为 $(\frac{g - f}{a + h (y)}, \frac{h (y)}{a + h (y)})$ 。

求出系统的雅克比矩阵：

$J = [\begin{matrix} (1 - 2 x) [h (y) - y (a + h)] & - x (1 - x) (2 q y - a - q) \\ y (1 - y) (a + h (y)) & (1 - 2 y) [x (a + h (y)) - x y h (y)] \end{matrix}]$

（13）

将 $E_{1}^{'} (0,0)$ 、 $E_{2}^{'} (0,1)$ 、 $E_{3}^{'} (1,0)$ 、 $E_{4}^{'} (1,1)$ 复制动态均衡点代入雅克比矩阵中，求出相应的det（ J ）>0、tr（ J ）<0， $E_{1}^{'}$ 、 $E_{2}^{'}$ 为鞍点， $E_{3}^{'}$ 、 $E_{4}^{'}$ 为不稳定点。

将 $E_{5}^{'} (x^{*}, y^{*})$ 代入雅各比矩阵，得到：

$J (E^{*}) = [\begin{matrix} 0 & - x^{*} (1 - x^{*}) (2 q y^{*} - a - q) \\ y^{*} (1 - y^{*}) (a + h (y^{*})) & - x^{*} y^{*} h (y^{*}) \end{matrix}]$

（14）

求得其特征根为 $λ_{1}, λ_{2} = - \frac{x^{*} y^{*} q (1 - y^{*}) \mp \sqrt[]{∆}}{2}$ ，其中 $∆ < 0$ ，因此 $J (E^{*})$ 的特征根为一对具有负实部的复根，说明系统是渐进稳定的，与此同时演化轨迹最终将趋向于稳定焦点。

（2）均衡点分析

由以上分析可知， $E_{5}^{'} (x^{*}, y^{*})$ 为系统演化的稳定均衡点，代入复制动态方程得出：

$\{\begin{matrix} x^{*} = \frac{g - f}{a + h (y^{*})} \\ y = \frac{h (y^{*})}{a + h (y^{*})} \end{matrix}$

（15）

求解方程组，得到：

$\{\begin{matrix} x^{*} = \frac{g - f}{0.5 a + \sqrt[]{a^{2} + 4 a q}} \\ y^{*} = 1 + \frac{a}{2 q} - \frac{\sqrt[]{a^{2} + 4 a q}}{q} \end{matrix}$

（16）

讨论各参数对系统均衡点产生的影响：

①对 $x^{*}$ 进行求导，得出 $x^{*'} (q) < 0$ ， $x^{*'} (g) > 0$ ， $x^{*'} (f) < 0$ ， $x^{*'} (a) < 0$ 。由此可知，加大矿山企业所受惩罚的严重程度q，会降低地方政府选择“高奖惩”策略的概率；如果增加企业引进绿色先进技术、员工培训等所需成本g，地方政府选择“高奖惩”策略的可能性也会随之上涨；若企业参与绿色矿山建设获得的间接收益f增加，地方政府倾向于选择“低奖惩”策略；增加政府激励所支出的直接成本a，地方政府倾向于选择“低奖惩”策略。

②对 $y^{*}$ 进行求导，得出 $y^{*'} (q) > 0$ ， $y^{*'} (a) < 0$ 。由此可知，若加大矿山企业所受惩罚的严重程度q，企业采用“高参与”策略进行绿色矿山建设的可能性会随之增加；而政府激励所支出的直接成本a增加，企业倾向于选择“低参与”策略进行绿色矿山建设。

（3）仿真分析

假设q=2，当 $0 \leq \frac{h}{a + h} \leq 1$ 且 $0 \leq \frac{g - f}{a + h} \leq 1$ 时，政府采取“高奖惩”策略的初始概率为x=0.4，矿山企业采用“高参与”策略进行绿色矿山建设的初始概率为y=0.2，整个系统的博弈演化趋势曲线如图5所示。在动态惩罚机制下，政府实行“高奖惩”策略和矿山企业采用“高参与”策略进行绿色矿山建设的系统演化轨迹呈螺旋收敛的趋势，最终稳定在均衡点。表明在动态惩罚机制加入后系统的演化过程稳定均衡，地方政府和矿山企业能够在稳定的条件下积极参与绿色矿山建设。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 动态惩罚机制下地方政府与矿山企业演化博弈的仿真轨迹

注：图中“x=0.4，y=0.2”表示地方政府和矿山企业演化博弈的初始概率

Fig.5 Simulation track of the evolution game between local government and mining enterprises under dynamic punishment mechanism

假设政府采取“高奖惩”策略的初始概率为x=0.4，企业采用“高参与”策略进行绿色矿山建设的初始概率分别为y=0.2和y=0.8时，博弈演化过程随时间变化的曲线如图6（a）所示；政府采取“高奖惩”策略的初始概率为x=0.7，企业采用“高参与”策略进行绿色矿山建设的初始概率分别为y=0.2和y=0.8时，博弈演化过程随时间变化的曲线如图6（b）所示。从仿真结果来看，动态惩罚机制下矿山企业采用“高参与”策略的演化趋势呈逐渐收敛，政府采取“高奖惩”策略的概率不同，导致矿山企业策略行为初始演化的情况也不同，但最终稳定到均衡点。说明采用动态惩罚机制促使了矿山企业参与绿色矿山建设的行为稳定，从而提高了企业参与的积极性。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 动态惩罚机制下不同初始值的企业参与绿色矿山建设的演化过程

Fig.6 Evolution process of enterprises with different initial values participating in green mine construction under dynamic punishment mechanism

令地方政府和矿山企业初始概率分别为x=0.4，y=0.2，研究不同机制下的惩罚措施对矿山企业参与绿色矿山建设的影响。当惩罚金额为固定值时，企业采用“高参与”策略进行绿色矿山建设的概率呈周期性变动，且波动范围变大。当采用动态惩罚机制时，企业采用“高参与”策略进行绿色矿山建设的概率由波动状态逐渐收敛，并最终稳定到均衡值。而当动态惩罚机制延迟4个月之后，企业采用“高参与”策略进行绿色矿山建设的概率波动不断变小，但最终并没有稳定下来，稳定效果受到影响（图7）。因此，在对矿山企业实施惩罚机制时，需及时将相关惩罚措施落实到位，逐步引导矿山企业生产转型，并根据矿山企业的具体情况进行相应规划。