-
摘要:
海上装备群体博弈是探索各类有人/无人船舶、舰艇、舰载机等水面/水下装备集群在海洋任务场景中对抗、竞争、合作等博弈行为的重要手段。首先,本文阐述了概念定义与内涵,从博弈模式、博弈范围、智能程度等角度辨析了基本类别。其次,从海上装备的非智能群体博弈和智能群体博弈两方面梳理了相关技术最新进展。最后,总结与讨论了存在的问题与六大潜在研究方向。
Abstract:Maritime equipment group gaming (MEGG) serves as a pivotal framework for exploring and investigating the gaming strategy interaction behaviors among various groups of maritime equipment operating in complex oceanic task scenarios, such as adversarial simulation, maritime traffic, and maritime rescue. The equipment groups typically include manned and unmanned vessels, carrier-based aircraft, and other similar assets, and the reviewed gaming strategy interaction is primarily concerned with confrontation, competition, and cooperation. First, the survey clarifies the conceptual boundaries of maritime equipment group gaming, including the differences between theories such as population game, swarm intelligence, and other related paradigms. This conceptual clarification helps lay the groundwork for subsequent classification and analysis. Next, the survey reviews the typical task scenarios of MEGG approaches, including adversarial deduction, maritime traffic, and maritime rescue. Each of these scenarios reflects distinct operational challenges and objectives within the MEGG context. Following this, the survey further distinguishes the basic categories of MEGG approaches in detail. Specifically, MEGG approaches are categorized along multiple dimensions: game modes (including confrontation gaming, competition gaming, cooperation gaming, and mixed gaming), game scopes (covering intra-group, inter-group, and dual-level gaming), equipment heterogeneity (encompassing both single-class and cross-class systems), and intelligence levels (ranging from non-intelligent gaming to intelligent gaming). Second, the survey dissects technological progress in two main representative aspects of non-intelligent MEGG and intelligent MEGG. For non-intelligent MEGG, the survey reviews the classical methods that include Lanchester's laws, population game theory, and crowd simulation models. For intelligent MEGG, the survey reviews the MEGG approaches from aspects of traditional machine learning (covering areas such as decision support, scheduling, planning, deduction, prediction, and so on) and multi-agent reinforcement learning (focusing on adversarial deduction, task planning, and so on). At the end, the survey summarizes the current challenges in MEGG research areas and proposes six promising research directions: human-machine integrated intelligent gaming decision-making framework, trustworthiness and interpretability of intelligent gaming models, deep reasoning for maritime missions via large-scale models, hierarchical collaborative gaming mechanism for intelligent agents; standardized management system for heterogeneous intelligent agent clusters, and high-fidelity gaming systems enhanced by cross-domain expert knowledge. These six directions collectively provide structured, actionable guidance for future studies in this emerging and important field.
-
0. 引 言
随着全球海洋经济发展与海上安全形势变化,各类海上装备在国家战略与区域协同中的群体博弈行为受到了广泛关注。上述有人/无人装备群体在执行海洋任务过程中,通常面临着对抗冲突、资源竞争、合作协同等多重复杂群体博弈关系,呈现出显著的策略性、动态性和群体性特征。在复杂多变的海洋环境下,海上装备如何实现高效、智能和精确的群体博弈策略求优,是提升海上装备体系效能的关键,也是当前学术与工业界研究的热点。
海上装备群体博弈(maritime equipment group gaming,MEGG)是探索多装备、多系统等复杂集群在海洋想定任务场景下协同博弈推演的重要手段,相关研究领域涵盖面向海上场景的博弈推演、智能决策、规划调度等。近年来,随着博弈理论、群体仿真、多智能体强化学习等技术的发展,海上装备群体博弈的相关研究进入了高速增长期。在SCIE,EI,SSCI数据库中以maritime/naval simulation,maritime/naval game,maritime/naval wargame,maritime/naval multi-agent,maritime/naval intelligence,maritime/naval AI,maritime/naval modeling关键词,搜索1900年1月至2025年1月的文献,共计24 417篇。图1展示了基于VOSviewer[1]对关键词文献聚类分析的结果,可以发现,在1900~2000年(共计2 448篇),研究聚焦于“计算机模拟(computer simulation)、数学模型(mathematical model)、计算机辅助分析(computer aided analysis)、决策支持系统(decission support system)”等,象征着人工推演向计算机仿真推演的转变。2001~2015年(共计
8044 篇),出现了“多智能体系统(multi agent systems)”等技术。在最近的2016~2025年(共计13925 篇),出现了“人工智能(artificial intelligence)、神经网络(neural network)、学习系统(learning system)、强化学习(reinforcement learning)”等新兴领域,一方面文献数量呈阶梯式增长,另一方面研究方向呈现自动化、智能化、复杂化的发展趋势。在计算机与人工智能技术日新月异的近5年,尚未有研究者针对海上装备群体博弈的研究进行系统性综述和分析。因此,本文将围绕图2展示的关键场景,深度辨析海上装备群体博弈的概念内涵、典型任务、基本类别等,从非智能群体博弈与智能群体博弈2个层面综述海上装备群体博弈的国内外代表性成果。最后,总结与讨论海上装备群体博弈方法的存在问题,并提出6个潜在研究方向。
1. 概念内涵与基本类别
本节首先介绍和辨析海上装备群体博弈的定义和内涵,其次阐述其应用场景与典型任务,最后从多层面深入探讨海上装备群体博弈方法的基本类别。
1.1 海上装备群体博弈定义
本文中“海上装备”包括但不限于有人/无人船舶、舰艇、舰载机等水面/水下海上装备、平台及相关配套系统。
在“海上装备群体博弈”概念中,“博弈(gaming)”包含“博弈(博弈的行为)”与“推演(博弈的过程)”2层含义,此处参考了war game[2-3](译为“兵棋推演”或“战争博弈”)的定义与译法,即“博弈”与“推演”耦合共生。
如图3所示,本文中“博弈”是指语言层级上的广义博弈,意为“多个行为主体(参与者),在一定规则约束下,相互影响、对抗、合作、竞争等情境中,为取得收益而进行策略互动、反馈和推演的过程”,其包括但不限于学术专业名词中的“博弈”(例如,《博弈论》[4]、战争博弈[2, 3]、多智能体博弈[5]等),而“群体博弈”是将博弈行为延伸至群体范围,目标是研究“群体之间和群体内多个体之间”的策略交互,具体见表1。
如表2所示,本文中“群体(Group)”是针对个体数量的描述,形容2个及以上个体组成的团体,与相关典型术语中的群体(如Population,Swarm)稍有区别。具体而言,经典术语群体博弈[6](population game)中,Population的语义侧重于“种群”,个体通常是同质且匿名的[5-6],重点为研究同质个体作用下种群的进化/演化机理。
表 1 海上装备群体博弈概念解析Table 1. Conceptual analysis of MEGG definition概念 描述 海上装备 (1) 包括但不限于有人/无人船舶、舰艇、舰载机等水面/水下海上装备、平台及相关配套系统。
(2) 涵盖水面、水下等海上装备、平台及相关配套系统。博弈 (1) 指语言层级的广义博弈,指多个行为主体在“相互影响、对抗、合作、竞争等”情境中,为实现自身利益而进行策略互动与推演的过程。
(2) 包含了“博弈(博弈的行为)”与“推演(博弈的过程)”两层含义。
(3) 包括但不限于学术专业名词中的“博弈”(例如,《博弈论》[4]、战争博弈[2-3]、多智能体博弈[5]等)。群体博弈 (1) 将博弈行为延伸至群体范围。目标是研究“群体之间和群体内多个体之间”的策略交互
(2) 本文“群体(Group)”是针对个体数量的描述,形容两个及以上个体组成的团体。
(3) 与相关典型术语中的群体(Population,Swarm等)概念稍有区别,具体概念定义与辨析如表2所示。表 2 相关定义对比Table 2. Comparison of related definitions概念 Population Swarm Group(本文) 中译 群体、种群、族群 群体、集群、虫群 群体、群组、团体 典型术语 群体博弈(population game)[6]:也称为演化博弈,起源于博弈论。
(1) 研究个体策略调整过程在宏观上呈现的群体演化[5]。
(2) 个体通常同质且匿名[6],少数文献[9-11]也探索了个体异质建模。群体/集群智能[7-8](swarm intelligence):也称为collective intelligence[8, 12],指通过个体协作和交互,形成的集体智能行为。
(1) 个体行为简单,整体表现复杂。
(2) 强调去中心化、自组织、分布式的群体智能。群体行为[13-14](group behavior):一个群体(Group)为实现目标而采取的集体行动和决策过程,起源于人群仿真、社会学等领域。 语义区别 (1) Population语义侧重于“种群”。
(2) 例如,经典群体博弈建模中,个体必须为同质且匿名的[6],进而研究种群的进化/演化(evolutionary)过程。(1) Swarm语义侧重于仿生学中的“虫群式”智能模型。
(2) 例如,群体智能中表示去中心化、自组织的“虫群式”群体智能行为。(1) Group语义侧重于对个体数量的描述。
(2) 通常形容两个及以上个体组成的团体,表示较为广义的“多个体系统”。适用范围 对通用“群体”的描述有限,难以扩展至海上异质群体,例如舰艇编队、多类异构装备博弈等场景。 对通用“群体”的描述有限,难以扩展至个体行为复杂、群体内个体对抗等场景。 对“群体”的描述最为广泛,包括但不限于Population,Swarm,Multi-Agent等同质、异质等海上多装备博弈场景。 群体智能[7-8](swarm intelligence)术语中,Swarm的语义侧重于“虫群式”的智能行为,是指简单个体通过协作形成的集体智能,强调去中心化、自组织、分布式的群体智能。
综上所述,Population和Swarm的语义难以全面涵盖海上装备属性异质、个体策略多元化等复杂博弈场景,并难以涵盖包含了博弈论、群体仿真、多智能体强化学习等交叉学科的博弈行为。因此,本文使用Group来描述广义的群体概念,其包括但不限于Population,Swarm,Crowd,Multi-Agent等同质、异质、多学科交叉的海上装备博弈研究。基于上述定义,本文在1.2节中对海上装备群体博弈方法进行了详细分类。
1.2 海上装备群体博弈主要类别
广义来讲,海上装备群体博弈方法的主要应用场景如图2和表3所示,包括海上作战推演、交通运输、海上救援等。如表4和图4所示,对海上装备群体博弈方法的应用场景与典型任务进行细化分类,可进一步地形成博弈模式、博弈范围、装备范围、智能程度等主要标准。
表 3 海上装备群体博弈方法应用场景与典型任务Table 3. Application scenarios and typical tasks of MEGG methods典型应用场景 描述 典型任务 作战推演 舰艇编队、无人平台等装备在海上环境中的博弈模拟,涉及多装备策略对抗、规划调度等 海上编队兵棋推演、打击目标分配、通信干扰与反制、甲板作业规划等 交通运输 多方船舶、舰艇等在海上航行、作业等过程中围绕资源和效率进行策略博弈与调度协作 航线规划、船舶避障、队形变换、资源协调、通行权博弈、泊位调度等 海上救援 面向海上突发事件或灾害,多平台协同开展搜救、监测与补给等任务 搜索分区、多平台合作搜救、编队协同搜索、救援物资调度等 表 4 海上装备群体博弈方法主要类别Table 4. Main categories of MEGG methods标准 类型 描述 典型应用场景 博弈
模式对抗博弈 (1) 海上装备群体通过策略性博弈实现动态对抗与优势(收益)争夺。
(2) 关注单位间的对抗冲突、信息交互和相互影响。
(3) 博弈目标是己方收益最大化,且敌方收益最小化。集群对抗推演[15]、攻防辅助决策[16]、战术评估预测[29, 30]、兵棋推演[2-3, 31-32]、海上通行权争夺[33-34]、海上交通冲突推演[35-36]等。 竞争博弈 (1) 海上装备群体通过非合作方式对资源(收益)展开竞争性博弈。
(2) 关注单位自身的策略规划,单位间的对抗冲突和交互影响较少。
(3) 博弈目标是己方收益最大化。作战资源分配[17]、杀伤链规划[18-19]、兵力分配[20]、甲板调度[37]、船舶交通规划[38-39]、船舶航线分配[40]、泊位调度[41]等。 合作博弈 (1) 海上装备群体通过个体间的协调、取舍等博弈策略实现群体整体效能(收益)的最大化。
(2) 关注系统整体收益,可牺牲个体单位收益。
(3) 目标是实现系统总体收益的最大化。编队协同[22, 23]、舰队队形变换[24, 25]、多平台协同打击[24, 42]、协同搜救[21, 43]、协作运输[44-45]等。 混合博弈 (1) 同时存在对抗、竞争与合作两到三种类型的博弈模式。
(2) 多用于复杂系统下的多目标博弈任务建模。
(3) 目标是实现兼顾内部与外部博弈的系统收益优化。上述跨类任务共存[26-28, 46]。 博弈
范围群内博弈 (1) 同一群体内部个体之间的博弈关系。
(2) 通常为群体内部分工、竞争、合作等,强调群体内部平衡。舰艇成员任务规划[47-48]、甲板舰载机调度[49]、无人集群协作[50]、协同靠泊与避让[51]、船队编队导航[52]、水下机器人分区作业[53]等。 群间博弈 (1) 不同势力群体之间的博弈。
(2) 各群体间行为策略博弈与联合动态演化,强调跨系统/跨势力的对抗或协商机制。红蓝双方编队对抗作战等[54]、海上资源使用权争夺[33]、多船队交通规划[38-39]等。 双重博弈 (1) 同时包含群内与群间两层级的复杂博弈过程。
(2) 需平衡和兼顾内部效率与外部竞争关系。上述跨类任务共存[28, 46]。 装备
范围单类装备 (1) 相同类型装备组成的群体,具备统一性能特征和控制方式。
(2) 博弈模型侧重于同质个体之间的行为交互与协同。甲板舰载机调度[37, 55]、无人机集群控制[24]、船队航线优化[40]、海上无人机协同搜索[56]等 跨类装备 (1) 同时涵盖多种类型装备间的联合博弈,如舰船、舰载机、潜艇等。
(2) 注重多类异构装备的策略交互、信息融合与多平台动态协调。海上编队跨域协同[42]、联合作战任务[57]、船舶联合调度[38, 39]、海上多平台协同搜救[21]等 智能
程度非智能博弈 (1) 基于规则设定、固定算法或静态策略,无学习与适应机制。
(2) 通常基于理论分析、规则驱动仿真或传统博弈推演,不具备智能体自主学习能力。以非智能化途径实现上述任务应用,如兰彻斯特方程、博弈论算法、决策树等 智能博弈 (1) 博弈参与者具备学习、自适应能力,可根据反馈调整策略。
(2) 通常结合强化学习、多智能体系统等方法建模,适用于动态环境下的高复杂度任务决策。融合智能化方法实现上述任务应用,如多层感知机、深度学习、强化学习等 1)博弈模式:用于分析海上群体博弈的具体行为模式,主要包含对抗博弈、竞争博弈、合作博弈和混合博弈4种类型。对抗博弈关注单位间的对抗冲突,博弈目标是己方收益最大化,且敌方收益最小化[15-16]。竞争博弈关注群体单位自身的策略规划,单位间的对抗冲突和交互影响较少,其博弈目标是己方收益最大化[17-20]。合作博弈主要关注系统的整体收益,可牺牲个体单位收益以实现系统总体收益的最大化[21-25]。混合博弈是指同时存在上述2种以上类型的博弈模式,目标是实现兼顾内部与外部博弈的系统收益优化[26-28]。
2)博弈范围:该标准用于描述博弈行为是介于同一群体内部的个体之间、不同势力的群体之间还是二者兼顾,包含群内博弈[47-52]、群间博弈[54]和双重博弈[28, 46]3种类型。
3)装备范围:用于描述博弈单位的多样性和复杂性,包含单类装备、跨类装备两种类型。单类装备是指群体由具备统一性能特征和控制方式的同装备组成,关注同质个体之间的行为交互与协同[37]。跨类装备涵盖多类装备间的联合博弈,如舰船、舰载机、潜艇等,关注异构装备群体的策略交互、信息融合与多平台动态协调。
4)智能程度:用于划分群体博弈方法的实现方式,本文主要将其划分为非智能博弈和智能博弈两大类。非智能博弈方法是基于规则设定、固定算法或静态策略,无学习与适应机制。智能博弈具备学习、自适应能力,可根据反馈调整策略,适用于动态环境下的高复杂度任务决策。本文以下将针对智能程度分类重点展开综述。
2. 海上装备非智能群体博弈
海上装备的非智能群体博弈指不使用任何人工智能技术,通过固定算法、规则、模型等求解计算等模式实现博弈推演的方法[58],自身不具备学习与自适应机制。如表5所示,本文将海上群体非智能博弈方法总结为3个主要类别,分别为基于兰彻斯特方程、基于群体博弈理论和基于群体仿真推演的3类方法。
表 5 非智能海上装备群体博弈代表性方法Table 5. Representative methods of non-intelligent MEGG兰彻斯特方程 群体博弈理论 群体仿真推演 理论基础 微分方程、军事科学等 博弈论、策略收益等 物理建模、规则驱动、跨学科
融合仿真计算等代表性理论 兰彻斯特线性率、兰彻斯特平方率等 纳什均衡、演化博弈、博弈树理论等 元胞自动机、社会力模型、流体动力学模型等 研究目标 模拟群体对抗双方的力量与时间变化 研究多个体间的策略交互© 模拟群体时空演化中的博弈、合作等行为 关注层面 作战层面,战斗结果预测 策略层面,强调收益优化与决策 行为层面,注重动态演化与交互模式 应用场景 军事推演、战斗模拟等 军事博弈、经济学(市场竞争)、
生物学(种群演化)等军事群体行为仿真推演、交通仿真、生态仿真等 2.1 兰彻斯特方程
传统非智能博弈推演的主要计算方法之一是兰彻斯特方程[59, 60](Lanchester's laws,LL)。兰彻斯特(Lanchester)方程全称为兰彻斯特战斗动态方程,也称为兰彻斯特作战模型,于1914年由英国Frederick Lanchester提出,是二战后形成的军事运筹学、数理战术学的重要作战模拟理论。LL通过微分方程模型计算作战双方的实力和时间关系,方程的解代表战争最后结果。代表性算法有兰彻斯特线性率和兰彻斯特平方率。
1)兰彻斯特线性律:兰彻斯特第一线性率主要应用于冷兵器时代的单兵一对一格斗情形,而兰彻斯特第二线性率主要应用于远程打击作战(包括海上远程攻防作战)。红蓝双方作战兵力“相互隐蔽”(视距内不可见),双方兵力损失除了取决于对方战斗力,还与双方兵力数量均相关。双方交战情况取决于各自的战斗力水平(即损耗率)与初始兵力的乘积,双方兵力损失速度与初始兵力无关。
2)兰彻斯特平方率:兰彻斯特平方率的应用场景为双方近距离交战(包括海上近距离攻防作战),红蓝双方作战兵力均相互可见(视距内),每一方均可集中优势兵力攻击另一方,每一战斗单位打击对方任一战斗单位的概率大致相等,双方兵力损失除了取决于对方的战斗力,还与对方兵力数量有关,双方交战态势受双方战斗力水平(损耗率)和初始兵力平方的乘积制约,初始兵力与获得最终胜利的难度成正比。
基于上述兰彻斯特方程机理,针对海上装备博弈场景,赵慧赟等[61]利用LL模型对兵棋博弈过程以及对抗结果实现仿真分析。邓克波[62]等针对实体建模和仿真引擎关键技术,设计了基于计算机兵棋推演系统的联合作战方案仿真分析实施过程。Lauren[63]以红蓝双方部队博弈为例,探索了元胞自动机方法和LL之间的差异。面向分布式海上作战场景,陶鹏等[64]基于经典LL构建了融合远距离打击作战与近距离交战并行的分布式混合海战理论模型。高鑫[65]针对现代海战兵力损耗具有跳跃性、增援快的特性,设计有支援的离散兰彻斯特模型,分析了可见与不可见型海战模型的数学形式化表达。赵畅[66]面向黄海海战场景,根据先验知识,设计了黄海海战仿真推演的兰彻斯特方程。陈向勇等[67-68]在特拉法尔加海战为实际背景下,融合LL原理和非线性整数规划,提出在总兵力无优势条件下最大剩余兵力求解的仿真模型。王威[69]等通过构造面向舰艇作战系统效能的改进型兰彻斯特模型,设计了舰艇作战效能推演评估方法[69]。吴辰等[20]面向两栖登陆作战中动态分波次的序贯兵力作战效能分析场景,融合渡海投送、岸滩容量、兵力序贯打击等先验知识,提出了基于改进LL的序贯兵力对抗模型,为两栖投送指挥提供决策参考。吕学志[71]针对兵力、效能、模式等多重特征提出一种基于非连续LL的战役态势预测方法。于括等[72]面向敌方兵力对己方舰载机战力的需求分析,构建了舰载机作战结果与舰艇编队预警距离间的LL关系模型。于凤全等[73]通过随机LL建立舰载战斗机空战两阶段模型,实现了舰载战斗机空战博弈分析。任东彦等[74]基于投影法建模水面舰艇编队作战效能,采用LL计算了水面舰艇编队作战剩余兵力和兵力损耗率系数。贾永楠等[75]改进LL提出一种面向红蓝双方集群攻防对抗博弈问题的研究框架,以及一种基于动态贝叶斯网络的集群攻防策略。
兰彻斯特模型将作战视为一个确定的系统,虽然取得了一定成果,然而一旦初始条件确定后,结局也就基本确定,所以解析模型难以反映海上战场博弈体系的各种复杂变化[76]。
2.2 群体博弈理论
群体博弈(population game)理论[4, 6]是由经济学中的博弈论(game theory)演化而来(如表5)。1944年,Neumann和Morgenstern著作的《博弈论与经济行为(theory of games and economic behavior)》[4]标志着现代博弈论的初步形成。1950年前后,在Nash[77]构建非合作博弈的基本框架“纳什均衡[78]”后,还在博士学位论文中引入了Mass-Action概念。Mass-Action是对纳什均衡的一种群体层面扩展和统计学解释,强调通过大规模参与者的概率性行为分布来实现均衡,是纳什均衡理论的重要补充[79],对群体博弈理论产生了深远影响。2010年,Sandholm[6]发表《群体博弈与演化动力学》,从体系化的角度阐明了群体博弈理论[4]。至今,群体博弈理论已衍生成出各类新型策略,并广泛地应用于经济、生物、计算机、军事等领域。
群体博弈发生在一个所有群体共同存在的空间中[6],该空间可以定义为一个社会(society),其包含了博弈论中的四要素[4],即参与者(players)、策略(strategies)、收益(payoffs,亦称效用)、规则(rules)。据此,群体博弈的基本框架可表示如下。
1)参与者:设P={1,2,…,p}是由P个群体组成的社会,p∈P表示博弈群体,每个群体由有限且充足多的个体组成,假设个体都充分小且同质。
2)策略:设群体p的纯策略集为Sp,Sp中元素总数为np,则整个群体博弈中的策略集为S=S1×S2×...×Sp=∏p∈PSp。
3)群体状态:群体p中个体匿名在群体策略集Sp={1,2,…,np}中根据某些规则选择策略i∈Sp,则群体p的群体状态xp如式(1)所示。其中,xip≥0、 \sum _{i=1}^{{n}_{p}} {x}_{p}^{i}=1 , {x}_{p}^{i} 表示群体p中选择策略i的个体份额。
{x}_{p}=\left({x}_{p}^{1},{x}_{p}^{2},\dots ,{x}_{p}^{{n}_{p}}\right) (1) 3)社会状态集合:社会状态集合为每个群体状态的复合,记为 {X}_{p} 。据此,将所有群体状态 {x}_{p} 组合形成社会P的社会状态 x=({x}_{1},{x}_{2},\dots ,{x}_{P}) ,则全体社会状态的集合为 X={\prod }_{p\in P} {X}_{p} , {x}_{p}\in {X}_{p} , X中的元素描述了所有P个群体的行动。
4)总收益:定义群体p在社会状态x下的加权平均收益为 {\overline{F}}^{p}\left(x\right)=\sum _{i\in {S}^{p}}{x}_{i}^{p}{F}_{i}^{p}\left(x\right) ,则整个社会总收益表示为式(6)。
\overline{F}\left(x\right)=\sum _{p\in P}\sum _{i\in {S}^{k}}{x}_{i}^{p}{F}_{i}^{p}\left(x\right) (2) 基于上述逻辑,参与者个体策略是根据该策略指导下的收益(效用)来判断优劣。面向海上装备群体博弈场景,根据定义不同的参与者、规则、策略、收益便可以建立不同的群体博弈模型。
据此,Fan等[80]提出一种基于风险和博弈论的框架来分析海盗与海军团体之间的互动关系,利用贝叶斯网络来计算劫持成功率,并通过求解纳什均衡点方程计算均衡攻击率。Oliva等[81]提出一种海上反海盗博弈框架,以Stackelberg领导者−追随者博弈的形式,在通用海上场景中推演巡逻员和攻击者之间的博弈互动。Akbel等[82]提出一种基于博弈论的海军平台动态武器模型分配方案,将时间连续函数视为船舶效用函数,整个区域定义了武器连续杀伤概率值,将轨迹产生武器的连续杀伤概率,转化为船舶效用。Reed[83]提出利用双层博弈——“布洛托博弈[84](blotto game)”与“鹰鸽博弈[85](Hawk−dove game)”来分析美军未来军事战略的博弈推演算法设计。Yang等[86]构建了船舶安全监管中不同利益相关者(港务局、船东、社会群体)之间的三边进化博弈模型,旨在探索不同利益相关者的最优策略,以及影响监管体系演变的关键因素。McCarthy[30]构建面向“战略、战术、行动”共3层的分层规划安全博弈模型,其中战略规划主要考虑长远的规划范围及与博弈设计相关的决定,战术规划考虑短期资源的部署及满足战略层约束的防御策略,行动规划主要处理现实世界中策略的具体实施。李博文等[18]针对海上对空反导的杀伤链优化难题,融合基于博弈模型纳什均衡的适应度函数与遗传算法,提出混合集群演化元博弈算法,提高了在毁伤概率等作战指标上的性能。Lin等[30]提出一种基于混合分层竞争博弈的海港−船舶协调系统优化定价与服务调度模型,采用单领导者−多跟随者方案,解决了海港与船东之间的利益协调问题,并通过分布式算法保护各参与方隐私,验证了方法必要性和效率。Wei等[87]针对多自主水下航行器的协同对抗博弈问题,基于博弈论构建多策略自主水下航行器协同攻击分配优化模型,采用粒子群优化算法求解纳什均衡点以求解最优对抗战术。
上述工作将博弈论机理迁移至海上装备群体对抗、竞争与合作推演中,展示了博弈论在多样海上场景中的强表达能力与建模灵活性。然而,由于传统博弈论在个体、收益与博弈条件上的限制,未能考虑实际的装备异质性、行为多样性、环境动态性等复杂因素,难以应对高保真建模下多类异构装备群体间的复杂博弈问题。
2.3 群体仿真推演
群体仿真(crowd simulation)[88-89]推演方法的研究重点在于通过建立多学科交叉的仿真模型,模拟群体的动态行为和时空演化规律,关注群体的动态交互(包括对抗、竞争、合作等群体博弈行为)。最早的群体仿真推演系统是Reynolds[90]于1987年提出的鸟类群体行为仿真模型Boid。此后,群体仿真推演方法发展迅速,并广泛应用于场景仿真[91-93]、计算机博弈[94-95]、军事推演[96-97]、舰艇行为仿真[98]等领域。群体仿真推演的经典算法模型包括元胞自动机(cellular automaton,CA)模型、社会力模型、流体动力学模型等。
1) 元胞自动机模型最早由美籍数学家John在20世纪40年代提出[99],其将空间划分为代表个体或群体的离散元胞,通过定义元胞的状态转换规则和邻域关系来仿真群体。
2) 社会力模型由Helbing首次于2000年发表[100],该类型模型将群体中个体视为受到社会力(如吸引力、排斥力)作用的粒子,有效地仿真群体在特定场景下的流动行为。
3) 流体动力学模型[101]起源于物理研究领域,将群体视为连续流动介质,利用流体力学物理规则推演。
4) 面向海上场景,一些仿真博弈模型通常采用基于行为规则[19]、有限状态机[102]、决策树[103-104]等手段来建模智能体的博弈行为。上述模型标志着群体行为仿真研究从简单定性描述转向定量建模,为后续研究提供了理论基础。
面向海上装备群体博弈场景,Micheal[105]探索了面向现代海陆机动战争的CA模型,指出量化基于复杂性理论的模型与基于军事装备物理学的更传统的战斗模型之间的差异。Qi等[38-39]提出一种船舶交通流CA模型,通过添加映射改进空间离散化规则,并提出一种基于标准船舶概念的时空离散方法,通过考虑安全距离和避碰时机建立船舶运动更新规则。朱菊霞[106]面向海战中电子对抗特点,提出最优层空间的概念。通过主成分分析法优化干扰弹分布位置,解决了海上舰载侦察机、舰艇等装备中电子对抗博弈策略优化问题。Rafael等[107]提出一种基于模糊粗略决策树的可解释计算模型,以包括运动学、静态和环境信息在内的描述性航迹特征的形式预测船舶类型实现航道规划。Yan等[24]通过区域覆盖和分布式优化控制技术,提出基于无人机集群的反潜作战方法。该方法将反潜作战分为区域覆盖和协同收敛2个阶段,利用无人机集群进行广域搜索和精确定位,通过分布式优化控制实现多无人机协同作战。Liu等[108]提出一种结合CA和多智能体方法来研究港区船舶交通的新模型。Huang等[33]提出一种渠道通行能力仿真模型,涵盖船速、安全距离、航道布置方案、船舶超车规则等限制性条件,实现了基于序数和理论的船舶交通组织方案优化选择模型。
群体仿真推演方法强调连续性建模与集体运动变化,在应对非对抗性的集群动态优化场景中表现较好,如海上交通流组织、船舶队形优化、船舶布列等竞争或合作型博弈问题。然而,由于其缺乏对攻防冲突、装备毁伤等要素的有效建模能力,因此在处理舰船编队攻防对抗、策略博弈演化等强对抗型任务中存在明显不足。
3. 海上装备智能群体博弈
智能群体博弈是指基于人工智能技术,在推演中融入自动化的学习、决策、预测、推理等智能要素,实现多智能体自主行动与博弈等功能。其中,博弈的参与者具备学习和自适应能力,可根据反馈调整优化策略。
如图5所示,本文将从传统机器学习方法与强化学习多智能体博弈方法两方面对现有海上装备智能群体博弈研究展开综述。传统机器学习方法主要包含除了强化学习方法之外的监督学习、无监督学习、半监督学习等[109]。其中,有监督和无监督是传统机器学习最基础的划分依据,而半监督学习、自监督学习、迁移学习、多任务学习等是任务驱动或方法融合的扩展类型[110]。强化学习方法则关注智能体在与环境交互中通过试错优化策略[111]。
3.1 传统机器学习
针对海上装备群体博弈场景,国内外研究者提出了各种机器学习算法,通过模拟复杂的海上环境,以智能化学习提升海上装备在不同任务中的性能。上述工作中,基于传统机器学习的代表性工作可分为辅助决策、规划调度、推演预测三大任务类别。
3.1.1 辅助决策
第一个将人工智能应用于军事的例子通常被认为是Frank Rosenblatt在1957年开发的“感知机”(perceptron)[112]。感知机是一种早期的神经网络模型,目的是探索机器学习在军事领域的潜在应用,如识别敌方飞机或船只,其标志着人工智能在军事应用中的早期探索。密歇根大学的John Laird在20世纪80年代末和90年代初开发的Soar架构[113],是人工智能应用于军事仿真系统的重要例子(例如,TacAir-Soar),其利用人工智能来模拟人类飞行员的决策过程,从而提高了军事训练和策略分析的效果。
面向MEGG场景,罗荣等[114]展望了深度学习技术在海战指控中敌我目标识别、战场态势感知、辅助决策等方面的应用。王可等[115]设计一种通过AR头显的舰载机着舰拉制态势感知框架,通过将着舰作业核心态势数据与决策提示数据协同显示至操作员视场中达到人机高效协同决策目的。文献[116]采用自适应和预测控制体系结构,构建了作战“行动−决策”的自动化决策支撑模型。Lacki[48]提出一种能够仿真船舶操纵中舵手学习行为的智能系统,该系统使用神经进化算法,通过进化操作开发人工神经网络。田忠良[19]等针对兵棋对抗推演联合火力打击任务规划问题,提出了群体智能优化算法,通过与兵棋推演结合,可实现辅助指挥员决策。张路平等[117]提出一种基于“观察−判断−决策−行动”(OODA[118])思想的仿真博弈架构,将持续演进学习的理念应用于综合信息处理和指挥决策。Ma等[119]提出融合非合作博弈论与生成对抗网络(GAN)的框架,用于提升军事网络战中的决策效能,其通过模拟攻防双方的策略互动,利用GAN生成和预测网络攻击与防御机制,提高了军事网络防御的预测性。2022年,美国海军研究生院Johnson等[29]以自动化改进战斗管理和决策过程,采用跨学科的系统分析方法研究了新颖的自动化技术,并开发了支持战术决策和作战规划的自动化兵棋推演系统的概念设计。研究发现,自动化兵棋推演战斗管理系统可有效支持增强的态势感知、推理和问题解决能力、更快的决策时间线、作战行动方案的识别和评估。
3.1.2 调度规划
庞毅等[57]设计了一种基于遗传算法的舰艇编队对海攻击仿真系统,通过多智能体技术仿真舰艇编队联合作战行为,设计舰艇编队对海移动目标协同攻击流程,仿真中提出改进的遗传算法解决武器目标分配问题,在预测目标打击位置时提出了虚拟航路法。Zhang等[120]提出一种智能辅助任务规划项目,其基于统计学习技术在环境中训练计算作战规划智能体,旨在通过大规模重播进行学习、从经验中概括并通过重复进行改进的能力,加速和丰富作战概念的开发。Giulia等[121]提出一种无监督聚类技术检测海上交通中异常船舶行为,提高了船舶轨迹规划运营效率。蒙特利海军研究生院[122]提出基于智能体仿真技术作为海军规划的作战支持工具,用于分析作战级海军指挥官在冲突或危机期间做出的兵力分配、兵力部署和兵力调动决策的后果。龙红军等[123]综述了海战场作战资源类型及其优化规划方法,阐述了作战资源规划方法在海战场环境中的应用。
面向舰载机集群规划调度,郑州大学智能集群系统教育部工程研究中心、国家超级计算郑州中心徐明亮等[124]以美军“尼米兹号”航空母舰为例,构建了舰面半实物增强现实交互的电子沙盘推演系统(图6)与航空保障作业数字孪生仿真推演试验平台(图7),并在此平台基础上不断优化相关仿真推演功能与算法,实现了虚实融合联动的海上集群仿真、态势感知、可视分析、作业推演等功能[55, 115, 125]。针对航空母舰甲板规划推演场景,李超超等[55]提出基于虚实融合框架(实体舰载机−实体保障车辆−虚拟保障人员)的航空母舰甲板人机协同作业框架,将仿真态势信息和人工智能辅助决策信息在操纵者AR设备协同现实,将实体模型的空间定位数据一致性计算。李亚飞等[125]提出一种基于人机融合的多智能体作业调度决策框架,该框架涵盖智能体网络模块、混合网络模块与人机控制权限转移模块。先构建舰载机智能体集群指挥策略,计算人机主导权的无冲突方案并得到反馈经验,再根据历史经验优化智能体模型策略。
面向辅助决策和调度规划任务,传统机器学习方法通过数据驱动、建模预测等,能够在复杂约束条件下挖掘潜在模式,实现较强的泛化与自动化能力,适用于端到端的静态任务,例如态势感知、方案推荐、决策生成等。
3.1.3 推演预测
傅调平等[126]通过规则设计、态势评估和搜索策略等技术难点,设计基于机器博弈的海战兵棋推演系统,并在文献[127]中提出一种决策树搜索算法,设计与实现了一个基于智能主体的海战仿真推演平台。针对海空联合作战仿真推演,苏炯铭等[128]提出基于随机博弈的海空跨域协同博弈模型,分析相关均衡解概念,设计了海空兵棋智能推演模型。Tian等[129]提出一种基于行为树的空袭智能对抗方法,用于空海联合作战的仿真,能够有效提高目标生存率和任务完成率。李承兴等[130]提出一种融合MDP(Markov decision process)模型与神经网络的方法,渐进式优化人工智能在兵棋推演中的博弈能力。2023年,美国海军陆战队大学以Command为基准环境,开展了将生成式人工智能应用于仿真与兵棋推演的相关探索[131]。Martin等[132]以南非海军为例,通过贝叶斯信念网络和影像图分析了其作战规划过程。
面向海上装备群体推演预测,传统机器学习方法由于难以处理动态环境中的决策链条和连续反馈,研究相对较少。相比之下,强化学习多智能体博弈方法因具备序列决策、自主探索和策略优化等优势,已成为该领域的主流技术手段。
3.2 强化学习多智能体博弈
近年来,基于强化学习技术[133]的多智能体对抗博弈研究取得了显著进展。2016年,谷歌DeepMind提出的强化学习算法AlphaGo[134]在围棋比赛中击败了人类顶尖选手,AlphaGo采用蒙特卡罗树搜索算法,结合深度强化学习技术生成围棋落子策略。此后,DeepMind又相继提出AlphaGo算法的新版本AlphaGo Zero[135],AlphaZero[136],MuZero[137]等算法。针对多智能体电子竞技类游戏,2017年,OpenAI公司提出了OpenAI Five[138]。OpenAI Five针对一种五对五的战略竞技类电子游戏Dota2训练,并于2019年击败了Dota 2世界冠军战队。OpenAI Five通过自博弈学习在Dota 2中取得最佳奖励值的策略[139]。针对即时战略类竞技游戏StarCraft Ⅱ,谷歌DeepMind提出了模型AlphaStar[140],并在比赛中以5比0击败了世界顶尖职业选手。在AlphaStar基础上,TStarBot-X[120]利用不同人工创建各种初始化环境,以更少的计算数量级训练有竞争力的模型。SCC[141]通过过滤和模仿训练中使用的人类数据和压缩网络结构以优化模型训练效率。Liu等[142]提出一种分层强化学习方法来训练智能体,并使用较少的计算资源训练来击败游戏内置智能体。腾讯AI Lab提出了ROA-Star[143],在计算资源和性能上胜过了AlphaStar。ROA-Star使用对手建模(opponent modeling)[144-148]的理念,增加了一个辅助任务网络用于预测对手策略,并通过将潜在空间表征应用于主智能体的策略调整学习过程。上述成就致使基于强化学习的多智能体博弈技术成为了研究热点。
典型的多智能体强化学习(multi-agent reinforcement learning,MARL)系统核心机理如图8所示。简而言之,其包括智能体、观察、环境、反馈4个关键要素。
1)智能体(agents):智能体是MARL系统中的核心决策单元,每个智能体根据环境反馈和自身策略选择动作。智能体的策略 {\pi }_{i}\left({a}_{i}\right|{o}_{i};{\theta }_{i}) 决定其在观测 {o}_{i} 下选择动作 {a}_{i} 的概率。初始策略随机或基于启发式规则,此后智能体根据当前策略 {\pi }_{i} 和所观测的环境信息 {o}_{i} 决策: {a}_{i}~ {\pi }_{i}\left({a}_{i}|{o}_{i};{\theta }_{i}\right)\mathrm{。} 智能体的学习目标是通过优化策略参数 {\theta }_{i} ,最大化如式(3)所示的长期累积奖励。
{J}_{i}\left({\pi }_{i}\right)={\mathbb{E}}_{{\pi }_{i}}\left[\sum _{t=0}^{\mathrm{\infty }} {\gamma }^{t}{r}_{i}\left({s}_{t},{a}_{1,t},\dots ,{a}_{N,t}\right)\right] (3) 式中, \gamma 是折扣因子。智能体之间的关系可能是独立的(各自优化自身奖励),也可能是协作的(共享信息或优化全局目标)。
2)观察(observation):观察亦称为观测,是智能体与环境交互的感知环节,定义了智能体获取信息的方式和范围。智能体通过观察函数 {o}_{i}={O}_{i}\left(s\right) 从环境状态 s 中提取信息。观测直接影响智能体决策的准确性和学习效率,特别是在部分可观测环境中,观察不完整可能引入不确定性。
3)环境(environment):环境是智能体与之交互的外部系统或世界,定义了智能体交互的规则和动态变化。环境从时间片t的状态 {s}_{t} 转移到下一个时间片 (t+1) 的状态 {s}_{t+1} ,转移过程由如式(4)所示的动态模型 P\left({s}'\right|s,\boldsymbol{a}) 决定。
P\left({s}'|s,\boldsymbol{a}\right)=\mathbb{P}\left({s}_{t+1}={s}'|{s}_{t}=s,{\boldsymbol{a}}_{t}=\boldsymbol{a}\right) (4) 式中,环境接收智能体的联合动作 {\boldsymbol{a}}_{t} ,根据转移函数更新状态到 {s}_{t+1} ,生成奖励信号 {r}_{i} 反馈给每个智能体。
4)反馈:是环境为智能体提供的奖励信号,指导智能体优化其策略。环境根据当前状态 {s}_{t} 、智能体的联合动作 {\boldsymbol{a}}_{t}=({a}_{1},{a}_{2},\mathrm{ }\dots ,{a}_{N}) 生成反馈奖励 {r}_{i}={r}_{i}({s}_{t},{\boldsymbol{a}}_{t}) 。反馈为策略更新提供直接信号,是强化学习中策略优化的依据。总而言之,MARL系统通过智能体与环境的持续交互,利用观测和反馈优化策略,实现长期目标的最大化。在该过程中,智能体通过局部或全局信息决策,经奖励信号调整行为,适应环境的动态变化。4个要素紧密结合,共同推动系统在协作、竞争等复杂任务中的表现提升。
在MEGG场景下,强化学习多智能体博弈相关研究主要聚焦于2个核心方向:一是海上作战推演,通过驱动智能体在复杂动态环境中进行策略博弈与对抗演练,实现态势推演与智能决策;二是海上任务规划,通过强化学习优化装备体系构成、部署方案与资源配置,实现多目标博弈下的最优决策支持。
3.2.1 海上作战推演
本节从海空联合作战推演、海军舰艇编队作战推演、海军航空兵作战推演、海上无人装备作战推演4方面综述相关研究。
1)海空联合作战推演:围绕海空联合作战场景,王臆淞等[149]提出海空联合博弈算法ASM2,以分布式多智能体博弈算法MAPPO[150]为基础,设计嵌入评分系统的多对手多智能体训练框架,提升了模型泛化能力。Zhao等[151]探索利用强化学习作为海军辅助作战指挥的辅助决策框架。施伟等[152]面向多机协同空战决策,提出基于深度强化学习(DRL)[153]的流程框架,基于近端策略优化算法优化了多机协同对抗场景下智能体间的协同程度。Jung等[154]提出了一种基于强化学习和进化学习的战舰智能体仿真方法。崔文华等[155]针对兵棋推演的自动对抗问题,基于多源层次化的战场态势描述,将作战指挥分层分域的原则同即时策略游戏中的模块化和分层架构相结合,设计了一种层次化和模块化DRL方法框架。Tam等[156]提出一套针对海上自主系统的对抗性智能测试案例,评估了人工智能在动态复杂环境中的安全风险。Sun等[157]利用强化学习构建了基于数据驱动、态势认知和智能决策的海上作战智能辅助决策技术框架。张晓海[158]分析军事辅助决策走向智能化所面临的难题和挑战,面向现存模型与人机博弈中产生的非正确决策,设计了融合深度网络与强化学习算法的新型智能仿真兵棋框架。胡水[32]提出基于DRL的智能推演决策方法,分析将兵棋推演环境中的状态−价值函数引入到模型的过程,实现了融合深度网络与强化学习的新一代智能兵棋推演算法。Ilahi等[159]探讨DRL在对抗博弈中的安全挑战,并提出了相应的防御策略。曾贲等[160]提出一种数据驱动的对抗博弈智能体建模方法,针对复杂海上装备对空对抗场景,采用DRL与分布式训练技术,构建了空中目标智能体自学习决策模型。Wang等[161]利用DRL技术,构建基于STAGE仿真平台的海军防空智能训练框架,通过Actor−Critic算法[162]和A3C[163]算法实现了战舰与反舰导弹对抗中的武器应用与机动协同优化。张驭龙等[164]提出兵棋智能决策中观测信息不全,状态空间大、动作空间复杂、博弈实体多、决策持续长、策略博弈多元、专家数据缺的8项难点,并设计了基于分布式强化学习的兵棋智能博弈框架、智能策略生成优化框架与多智能体策略协同推演框架。美国蒙特利海军研究生院Coble等[31]以海军兵棋为依托,设计了基于强化学习Deep-Q网络[165](DQN)的海军最佳运动模拟系统。Lu等[166]针对海上编队防空任务分配综合效益低、实时性差等问题,提出一种基于DRL的海上编队防空任务分配方法,实现了更高的任务分配综合效益值,且求解时间更短。
2)海军舰艇编队作战推演:面向海军舰艇编队作战场景,Huang等[167]针对海战场环境下多智能体路径规划及目标追踪,以潜艇、舰艇为研究对象,提出一种基于强化学习DQN算法,通过Epsilon贪婪算法设计动作选择机制和基于应用环境设计奖励函数,实现了智能规划路线及追踪目标。Pu等[168]提出一种速度域多智能体近端策略优化方法,通过引入速度域优势估计模型来预测短期行动评估的有利速度,并在海战对抗场景中开展了验证。Bildik等[169]设计基于强化学习深度确定性策略梯度[170](DDPG)策略的框架,用于求解诱饵部署策略以提高目标舰船在导弹威胁下的生存概率。Shi等[171]围绕海战场环境作战仿真需求,提出强化学习驱动的多智能体协同作战仿真算法MARL-CCSA,利用专家经验提高了模型收敛性。Rao等[172]通过随机网络蒸馏算法解决强化学习中稀疏奖励问题,构建了3个典型的水面舰艇集群战斗仿真场景,包括目标追逐战、海上战斗和基地攻防战。针对近海海军作战中的协同与适应性,Vasankari等[173]提出一种基于MARL的战术决策框架,通过模拟复杂近海环境,优化多智能体间的通信与协作,增强态势感知与实时决策能力。王成飞等[42]提出一种结合规则推理与DRL的海战智能对抗行为建模方法,通过自博弈训练机制,实现了编队作战的智能决策与动态演化。
3)海军航空兵作战推演:面向海军航空兵作战推演场景,尹强等人[174]基于六角格式回合制作战推演系统,利用强化学习算法AlphaZero来实现对抗博弈过程学习。Wu等[175]提出海军航空兵海上打击主体模型的构建方法。王成飞等[42]提出海战仿真中的智能对抗行为建模方法和思路,设计了一个基于DRL的海军航空兵对海打击场景的智能体模型,并指出在海上作战方向尚缺少成熟的网络模型和算法框架等问题。
4)海上无人装备作战推演:面向自主水下航行器(AUV)、无人水下航行器(UUV)、无人水面航行器(USV)、无人机(UAV)等海上无人装备的作战推演,一些研究者开展了如下研究。Wang等[176]针对海上多AUV目标搜索,设计了一种多智能体目标搜索方法MATSMI,基于多智能体DDPG方法,提高了搜索成功率。针对海上无人集群防御系统协同作战场景,He等[177]基于多智能体DDPG算法提出集中和分散式训练框架,并在仿真环境中验证了单位协同作战能力。Xu等[28]提出一种基于MARL和DDPG算法的无人机集群智能协同作战框架,采用集中训练与分散执行的策略,通过改进的多智能体DDPG算法优化训练效果。于长东等[15]提出了利用多智能体DRL方案来完成无人艇群博弈对抗中的协同围捕任务。Lee等[178]针对USV海军防御任务,构建了以图为中心的多智能体强化学习方法为USV集群推导出去中心化和协作控制策略。Zheng等[179]提出多代理生成对抗交互式自我模仿学习,通过逐渐用自生成良好轨迹来促进AUV学习策略,实现了不同复杂任务的自适应。
MARL方法在海上作战推演中通过智能体与环境的交互不断优化策略,能够在数据匮乏的条件下,学习到最优或近似最优的行为策略,适用于舰船编队对抗、海空协同攻击等少样本、高动态的作战场景。
3.2.2 海上任务规划
海上任务规划相关研究,可分为军用场景和民用场景,军用场景涵盖路径规划、导弹打击分配、舰载机调度等,民用场景涵盖航线规划、碰撞避免、无人设备集群控制等。
1)军用场景:针对海上智能导弹齐射突防水面舰艇的任务规划问题,罗俊仁等[16]提出基于奖励塑造强化学习的智能导弹突防策略规划方法。薛均晓等[37]针对舰载机出动架次率的优化问题,设计一种基于DDPG算法的舰载机导引路径规划方法,通过提出兼顾即时与长期收益的奖励函数、相对速度障碍法、动态采策略,实现了路径长度、平滑度等多个评价指标的提高。Xiao等[180]提出一种结合注意力机制的DRL算法,通过融合海军舰艇多类型导弹的数学模型与MDP,提高了海战导弹目标分配方案效率。王健瑞[26]针对多智能体博弈夺旗问题,提出了一种基于多智能体双重决斗DQN以及图注意力网络的融合算法。Yang等[181]针对海战领域目标搜索时间周期短、实时性要求高的问题,提出一种基于DRL算法的海战场目标搜索数学路径规划方法,提高了搜索成功率。Zheng等[22]提出一种多机协同路径规划方法,通过DRL技术构建了海上战场目标搜索的实时路径规划框架。
2)民用场景:杨鹏程等[21]针对海上搜救中的海上移动目标搜索问题,提出基于最小覆盖矩形的搜索区域确定算法,构建了基于强化学习的搜索路径规划算法。Li等[182]基于强化学习方法,研究了具有合作−竞争交互的异构多智能体系统的最优耦合群组跟踪控制问题。Singht等[52]围绕海运业船舶间的碰撞避免问题,基于DQN算法增强了船舶动态避碰能力。杜意权[40]面向海上智能交通中的航线规划问题,设计了一种基于改进DDPG和Douglas算法[183]的沿海船舶全局航线规划方法,以及一种基于改进Hybrid A-star算法的局部航线规划方法。Wang等[23]提出基于多智能体DDPG算法的多船协同导航与避碰方法,通过通信机制解决了多船系统中的非平稳性和部分可观测性问题。
面向海上无人平台系统任务规划,Zhang等[27]利用多智能体DDPG算法,提出一种USV群体协同狩猎策略,通过定义新的奖励函数,避免了稀疏奖励问题。Wang等[184]研究一种在动态对抗环境中对UUV集群具有更好适应性的智能协同目标捕获方案,通过结合DDPG与摄入点自适应动态分配策略,实现了UUV集群对逃逸目标的围捕。Wang等[53]提出基于对抗DRL的控制方法,用于欠驱动AUV在复杂环境下的深度跟踪。Zhao等[56]提出一种基于图神经网络的MARL方法,将多无人机协同搜索与目标跟踪问题编码为空间图,解决了动态未知环境中稀疏奖励问题。Fang等[185]提出一种多AUV协同控制框架,通过强化学习分散训练与执行机制解决水下通信约束,实现编队控制与避障任务。
面向海上任务规划,MARL方法主要分为2种类型:一种是面向结果的方法,即设置初始状态和任务目标,通过多智能体连续博弈的最终优化结果作为任务分配方案,适用于任务周期长的静态场景,如船舶布列、航线规划、作战部署等;另一种是面向单步的实时决策方法,即预训练好强化学习博弈模型,在任务中输入当前状态,让模型预测下一步的最优动作作为规划方案,环境变化频繁、响应要求高的动态场景,如障碍避让、目标追击、编队攻防等。
4. 问题与展望
海上装备群体博弈领域近年来取得了显著进展,但在探索高效、精确、智能的仿真性能和多方策略优化方面仍面临众多复杂开放的科学问题与技术挑战。随着科技的不断演进,未来的研究和发展将集中于优化以下几个关键问题,以期推动该领域迈向更高水平:
1) 人机深度共融的智能博弈决策框架。
目前海上装备群体博弈研究多侧重于算法主导的博弈推演,忽视了人类指挥员在高风险、高不确定性战场环境中的经验判断与策略干预能力[186]。尤其在涉及复杂任务态势、突发事件处理与目标意图识别等决策节点上,完全依赖自主智能系统可能导致不稳定或不可控的风险[187-188]。通过构建支持人机共融决策的博弈推演框架,将指挥员与智能模型在认知层、决策层和执行层深度融合[189],通过“智能辅助提案−人类交互干预”的动态切换机制,实现更灵活、更鲁棒的决策过程。未来研究可重点探索人机共融策略对齐机制、意图建模方法及干预接口交互标准,构建具备透明化反馈、可解释模型与应急控制机制的人机共融博弈系统,实现人机优势互补,为风险可控的智能博弈决策系统建设提供新路径。
2) 智能博弈模型的可信性与可解释性研究。
海上智能博弈模型可显著提高决策、规划和推演效率,但模型推导的智能集群行为往往缺乏可信性和可解释性,导致其决策逻辑可能难以被指挥员理解或信任[190-191]。这种“黑盒式”决策方式限制了智能博弈系统在实战部署中的可信性与可控性,尤其在联合指挥、人机协同与突发事件应对中暴露出风险隐患[192]。为此,亟需构建具备可解释能力的智能博弈建模方法。一是可通过引入策略可视化[193-194]、事件知识图谱[195]、注意力机制解析、因果推理链条[196]构建等手段,将智能体在策略生成过程中关注的关键因素、对手建模机制与状态演化路径显式呈现,辅助指挥员理解并评估其潜在风险。二是可借助自然语言模型生成人类可读的策略摘要和解释等,实现“智能体−人”的双向认知对齐,构建可解释、可追溯、可信任的智能博弈决策链条,提升智能推演系统的可用性与透明性。
3) 融合大模型的海上任务深度推理。
大模型[197]作为具备强语言理解与推理能力的新型智能体,在任务解析[198]、规则推演[199]、策略生成[200]等方面展现出巨大潜力。通过将大语言模型嵌入海上装备群体博弈系统中,可在多模态与非结构化信息理解、复杂策略生成、人机任务沟通等方面实现颠覆性增强[201]。一是大模型可基于任务背景、自然语言命令或态势描述生成多样化战术目标与策略路径,解决传统策略生成过程依赖预设模板的局限。二是大模型强大的语义对齐能力能够对任务角色、装备行为和先验约束进行准确建模,提升多智能体之间的任务理解协同性。三是在多轮交互过程中,大模型还可作为战术解释器与协同中介,支持任务细化、意图澄清和策略评估等关键功能。未来研究可深入探索大模型与博弈引擎的融合接口机制、语言−策略联动训练框架与战术语料驱动的知识增强方法,实现海上群体博弈任务的深度推理与效能增强。
4) 分层式智能体协同博弈机制。
随着大模型技术的持续演进,大小模型协同[202-204](large-small model collaboration)机制也成为了当前研究热点之一,其通过不同性能的大小模型分工协作和优势互补,实现整体系统的灵活拓展和快速响应[205]。同理,构建性能从大到小不同层级结构的智能体群体协同博弈机制,也是未来提升海上智能决策系统效能的关键方向。在分层式群体协同博弈中:“较大智能体”作为高层协调者,具备强建模能力与策略生成能力,负责多目标规划、资源调度与关键节点策略制定;“较小智能体”则作为细化执行单元,响应速度快、部署密度高,适用于微观博弈、自适应执行与局部最优补偿。多层级智能体通过嵌套博弈模型协同联动、优势互补,形成“宏−中−微”多尺度博弈决策体系。未来研究可重点突破多级信息传输机制、大小智能体语义对齐、博弈策略耦合方法与角色动态演化机制,实现更具弹性和稳定性的海上群体博弈智能系统。
5) 异构智能体集群标准化管理体系构建。
近两年内,面向跨平台异构智能体的标准化管理,美国相继提出了ANP[206](agent network protocol),MCP[207](model context protocol)、A2A[208](agent-to-agent)等重要规范协议,旨在通过统一的接口标准与任务语义,实现异构智能体在通信交互、任务协同、语义对齐等方面的规范化管理。未来,异构智能体集群管理范式定义将成为海上智能群体博弈系统升级的重要基础。研究可聚焦任务语义驱动的指挥体系建模、跨平台智能体能力封装与角色演化机制、智能体编队协同规则等关键问题,构建具备自主协同、弹性扩展、规范互操的智能体集群管理体系。通过构建异构智能体管理范式,推动规范化、强兼容、高效率、轻量化的海上跨平台跨模态智能体集群协作体系转型,成为未来海上装备博弈体系演进的关键方向。
6) 融合跨域专家知识的高保真博弈系统。
当前海上装备群体博弈系统大多建立在简化场景、高度抽象的仿真模型基础上[209-210],此类“轻量建模”方式虽有一定的验证价值,但仍存在保真度低、细节缺失、行为偏离等突出问题,难以支撑高可信、高保真的海上任务评估[200-201]。未来,在算力硬件和智能体规范化管理的发展加持下,通过融合包括海洋学、气象学、地理学、军事学、装备工程等在内的跨域专家知识,将人类经验深度嵌入智能博弈流程,建立高仿真、强参考的海上群体博弈仿真系统。未来研究可围绕专家知识表达语言、知识与策略协同机制,以及动态情境下的知识演化更新机制开展系统设计与集成应用。通过将算法智能与专家认知相融合,构建具备任务感知、知识约束、行为可控的高保真智能博弈系统,实现海上智能博弈系统由“理论推演”向“工程实用”的关键跨越。
5. 总 结
本文围绕海上装备仿真作战推演问题,从概念内涵、应用场景、基本类别、技术进展、问题与展望几方面进行综述。总体而言,海上装备群体博弈在多装备任务协同和复杂环境决策中具有重要的研究价值和广阔的应用前景。尽管已有一些研究工作和探索,但许多科学与工程问题仍亟待解决。期待更多研究人员投入这一领域,推动其进一步发展与完善。
-
表 1 海上装备群体博弈概念解析
Table 1 Conceptual analysis of MEGG definition
概念 描述 海上装备 (1) 包括但不限于有人/无人船舶、舰艇、舰载机等水面/水下海上装备、平台及相关配套系统。
(2) 涵盖水面、水下等海上装备、平台及相关配套系统。博弈 (1) 指语言层级的广义博弈,指多个行为主体在“相互影响、对抗、合作、竞争等”情境中,为实现自身利益而进行策略互动与推演的过程。
(2) 包含了“博弈(博弈的行为)”与“推演(博弈的过程)”两层含义。
(3) 包括但不限于学术专业名词中的“博弈”(例如,《博弈论》[4]、战争博弈[2-3]、多智能体博弈[5]等)。群体博弈 (1) 将博弈行为延伸至群体范围。目标是研究“群体之间和群体内多个体之间”的策略交互
(2) 本文“群体(Group)”是针对个体数量的描述,形容两个及以上个体组成的团体。
(3) 与相关典型术语中的群体(Population,Swarm等)概念稍有区别,具体概念定义与辨析如表2所示。表 2 相关定义对比
Table 2 Comparison of related definitions
概念 Population Swarm Group(本文) 中译 群体、种群、族群 群体、集群、虫群 群体、群组、团体 典型术语 群体博弈(population game)[6]:也称为演化博弈,起源于博弈论。
(1) 研究个体策略调整过程在宏观上呈现的群体演化[5]。
(2) 个体通常同质且匿名[6],少数文献[9-11]也探索了个体异质建模。群体/集群智能[7-8](swarm intelligence):也称为collective intelligence[8, 12],指通过个体协作和交互,形成的集体智能行为。
(1) 个体行为简单,整体表现复杂。
(2) 强调去中心化、自组织、分布式的群体智能。群体行为[13-14](group behavior):一个群体(Group)为实现目标而采取的集体行动和决策过程,起源于人群仿真、社会学等领域。 语义区别 (1) Population语义侧重于“种群”。
(2) 例如,经典群体博弈建模中,个体必须为同质且匿名的[6],进而研究种群的进化/演化(evolutionary)过程。(1) Swarm语义侧重于仿生学中的“虫群式”智能模型。
(2) 例如,群体智能中表示去中心化、自组织的“虫群式”群体智能行为。(1) Group语义侧重于对个体数量的描述。
(2) 通常形容两个及以上个体组成的团体,表示较为广义的“多个体系统”。适用范围 对通用“群体”的描述有限,难以扩展至海上异质群体,例如舰艇编队、多类异构装备博弈等场景。 对通用“群体”的描述有限,难以扩展至个体行为复杂、群体内个体对抗等场景。 对“群体”的描述最为广泛,包括但不限于Population,Swarm,Multi-Agent等同质、异质等海上多装备博弈场景。 表 3 海上装备群体博弈方法应用场景与典型任务
Table 3 Application scenarios and typical tasks of MEGG methods
典型应用场景 描述 典型任务 作战推演 舰艇编队、无人平台等装备在海上环境中的博弈模拟,涉及多装备策略对抗、规划调度等 海上编队兵棋推演、打击目标分配、通信干扰与反制、甲板作业规划等 交通运输 多方船舶、舰艇等在海上航行、作业等过程中围绕资源和效率进行策略博弈与调度协作 航线规划、船舶避障、队形变换、资源协调、通行权博弈、泊位调度等 海上救援 面向海上突发事件或灾害,多平台协同开展搜救、监测与补给等任务 搜索分区、多平台合作搜救、编队协同搜索、救援物资调度等 表 4 海上装备群体博弈方法主要类别
Table 4 Main categories of MEGG methods
标准 类型 描述 典型应用场景 博弈
模式对抗博弈 (1) 海上装备群体通过策略性博弈实现动态对抗与优势(收益)争夺。
(2) 关注单位间的对抗冲突、信息交互和相互影响。
(3) 博弈目标是己方收益最大化,且敌方收益最小化。集群对抗推演[15]、攻防辅助决策[16]、战术评估预测[29, 30]、兵棋推演[2-3, 31-32]、海上通行权争夺[33-34]、海上交通冲突推演[35-36]等。 竞争博弈 (1) 海上装备群体通过非合作方式对资源(收益)展开竞争性博弈。
(2) 关注单位自身的策略规划,单位间的对抗冲突和交互影响较少。
(3) 博弈目标是己方收益最大化。作战资源分配[17]、杀伤链规划[18-19]、兵力分配[20]、甲板调度[37]、船舶交通规划[38-39]、船舶航线分配[40]、泊位调度[41]等。 合作博弈 (1) 海上装备群体通过个体间的协调、取舍等博弈策略实现群体整体效能(收益)的最大化。
(2) 关注系统整体收益,可牺牲个体单位收益。
(3) 目标是实现系统总体收益的最大化。编队协同[22, 23]、舰队队形变换[24, 25]、多平台协同打击[24, 42]、协同搜救[21, 43]、协作运输[44-45]等。 混合博弈 (1) 同时存在对抗、竞争与合作两到三种类型的博弈模式。
(2) 多用于复杂系统下的多目标博弈任务建模。
(3) 目标是实现兼顾内部与外部博弈的系统收益优化。上述跨类任务共存[26-28, 46]。 博弈
范围群内博弈 (1) 同一群体内部个体之间的博弈关系。
(2) 通常为群体内部分工、竞争、合作等,强调群体内部平衡。舰艇成员任务规划[47-48]、甲板舰载机调度[49]、无人集群协作[50]、协同靠泊与避让[51]、船队编队导航[52]、水下机器人分区作业[53]等。 群间博弈 (1) 不同势力群体之间的博弈。
(2) 各群体间行为策略博弈与联合动态演化,强调跨系统/跨势力的对抗或协商机制。红蓝双方编队对抗作战等[54]、海上资源使用权争夺[33]、多船队交通规划[38-39]等。 双重博弈 (1) 同时包含群内与群间两层级的复杂博弈过程。
(2) 需平衡和兼顾内部效率与外部竞争关系。上述跨类任务共存[28, 46]。 装备
范围单类装备 (1) 相同类型装备组成的群体,具备统一性能特征和控制方式。
(2) 博弈模型侧重于同质个体之间的行为交互与协同。甲板舰载机调度[37, 55]、无人机集群控制[24]、船队航线优化[40]、海上无人机协同搜索[56]等 跨类装备 (1) 同时涵盖多种类型装备间的联合博弈,如舰船、舰载机、潜艇等。
(2) 注重多类异构装备的策略交互、信息融合与多平台动态协调。海上编队跨域协同[42]、联合作战任务[57]、船舶联合调度[38, 39]、海上多平台协同搜救[21]等 智能
程度非智能博弈 (1) 基于规则设定、固定算法或静态策略,无学习与适应机制。
(2) 通常基于理论分析、规则驱动仿真或传统博弈推演,不具备智能体自主学习能力。以非智能化途径实现上述任务应用,如兰彻斯特方程、博弈论算法、决策树等 智能博弈 (1) 博弈参与者具备学习、自适应能力,可根据反馈调整策略。
(2) 通常结合强化学习、多智能体系统等方法建模,适用于动态环境下的高复杂度任务决策。融合智能化方法实现上述任务应用,如多层感知机、深度学习、强化学习等 表 5 非智能海上装备群体博弈代表性方法
Table 5 Representative methods of non-intelligent MEGG
兰彻斯特方程 群体博弈理论 群体仿真推演 理论基础 微分方程、军事科学等 博弈论、策略收益等 物理建模、规则驱动、跨学科
融合仿真计算等代表性理论 兰彻斯特线性率、兰彻斯特平方率等 纳什均衡、演化博弈、博弈树理论等 元胞自动机、社会力模型、流体动力学模型等 研究目标 模拟群体对抗双方的力量与时间变化 研究多个体间的策略交互© 模拟群体时空演化中的博弈、合作等行为 关注层面 作战层面,战斗结果预测 策略层面,强调收益优化与决策 行为层面,注重动态演化与交互模式 应用场景 军事推演、战斗模拟等 军事博弈、经济学(市场竞争)、
生物学(种群演化)等军事群体行为仿真推演、交通仿真、生态仿真等 -
[1] ARRUDA H, SILVA E R, LESSA M, et al. VOSviewer and bibliometrix[J]. Journal of the Medical Library Association, 2022, 110(3): 392–395. doi: 10.5195/jmla.2022.1434
[2] 曹占广, 陶帅, 胡晓峰, 等. 国外兵棋推演及系统研究进展[J]. 系统仿真学报, 2021, 33(9): 2059–65. doi: 10.16182/j.issn1004731x.joss.20-0726 CAO Z G, TAO S, HU X F, et al. Abroad wargaming deduction and system research[J]. Journal of System Simulation, 2021, 33(9): 2059–65 (in Chinese). doi: 10.16182/j.issn1004731x.joss.20-0726
[3] 北上. 兵棋推演与美国海军战争学院(下)[J]. 舰载武器, 2010(7): 67–77. BEI S. Warfare on sea chart and U. S. navy military college[J]. Shipborne Weapons, 2010(7): 67–77 (in Chinese).
[4] 杨辉. 群体博弈理论的新进展[J]. 运筹学学报(中英文), 2024, 28(3): 27–45. doi: 10.15960/j.cnki.issn.1007-6093.2024.03.002 YANG H. New advances in population game theory[J]. Operations Research Transactions, 2024, 28(3): 27–45 (in Chinese). doi: 10.15960/j.cnki.issn.1007-6093.2024.03.002
[5] 王龙, 黄锋. 多智能体博弈、学习与控制[J]. 自动化学报, 2023, 49(3): 580–613. doi: 10.16383/j.aas.c220680 WANG L, HUANG F. An interdisciplinary survey of multi-agent games, learning, and control[J]. Acta Automatica Sinica, 2023, 49(3): 580–613 (in Chinese). doi: 10.16383/j.aas.c220680
[6] SANDHOLM W H. Population games and evolutionary dynamics[M]. Cambridge: MIT Press, 2010.
[7] KENNEDY J. Swarm intelligence[M]//ZOMAYA A Y. Handbook of Nature-Inspired and Innovative Computing: Integrating Classical Models with Emerging Technologies. New York: Springer, 2006: 187−219. doi: 10.1007/0-387-27705-6_6.
[8] 张国辉, 文笑雨. 群体智能[M]. 北京: 清华大学出版社, 2022. ZHANG G H, WEN X Y. Swarm intelligence[M]. Beijing: Tsinghua University Press, 2022 (in Chinese).
[9] ZUSAI D. Evolutionary dynamics in heterogeneous populations: a general framework for an arbitrary type distribution[J]. International Journal of Game Theory, 2023, 52(4): 1215–1260. doi: 10.1007/s00182-023-00867-y
[10] MACIEJEWSKI W, FU F, HAUERT C. Evolutionary game dynamics in populations with heterogenous structures[J]. PLoS Computational Biology, 2014, 10(4): e1003567. doi: 10.1371/journal.pcbi.1003567
[11] AMARAL M A, WARDIL L, PERC M, et al. Evolutionary mixed games in structured populations: Cooperation and the benefits of heterogeneity[J]. Physical Review E, 2016, 93(4): 042304. doi: 10.1103/PhysRevE.93.042304
[12] 李璐璐, 朱睿杰, 隋璐瑶, 等. 智能集群系统的强化学习方法综述[J]. 计算机学报, 2023, 46(12): 2573–2596. doi: 10.11897/SP.J.1016.2023.02573 LI L L, ZHU R J, SUI L Y, et al. The reinforcement learning approaches for intelligent collective system: a survey[J]. Chinese Journal of Computers, 2023, 46(12): 2573–2596 (in Chinese). doi: 10.11897/SP.J.1016.2023.02573
[13] HACKMAN J R, KATZ N. Group behavior and performance[M]//Handbook of Social Psychology. Hoboken: John Wiley & Sons, 2010: 1208−1251. doi: 10.1002/9780470561119.socpsy002032. (查阅网上资料,未找到编者及页码信息,请确认补充)
[14] MATARIĆ M J. Designing and understanding adaptive group behavior[J]. Adaptive Behavior, 1995, 4(1): 51–80. doi: 10.1177/105971239500400104
[15] 于长东, 刘新阳, 陈聪, 等. 基于多智能体深度强化学习的无人艇集群博弈对抗研究[J]. 水下无人系统学报, 2024, 32(1): 79–86. doi: 10.11993/j.issn.2096-3920.2023-0159 YU C D, LIU X Y, CHEN C, et al. Research on game confrontation of unmanned surface vehicles swarm based on multi-agent deep reinforcement learning[J]. Journal of Unmanned Undersea Systems, 2024, 32(1): 79–86 (in Chinese). doi: 10.11993/j.issn.2096-3920.2023-0159
[16] 罗俊仁, 刘果, 苏炯铭, 等. 基于奖励塑造强化学习的智能导弹突防策略规划方法[J]. 智能科学与技术学报, 2024, 6(2): 189–200. doi: 10.11959/j.issn.2096-6652.202411 LUO J R, LIU G, SU J M, et al. Reward shaping based reinforcement learning for intelligent missile penetration attack strategy planning[J]. Chinese Journal of Intelligent Science and Technology, 2024, 6(2): 189–200 (in Chinese). doi: 10.11959/j.issn.2096-6652.202411
[17] 吕遐东, 郑爽, 陈杰. 基于改进遗传算法的舰艇编队联合防空资源预规划方法[J]. 中国舰船研究, 2023, 18(3): 266–276. doi: 10.19693/j.issn.1673-3185.02877 LV X D, ZHENG S, CHEN J. Pre-planning method of joint air defense resources for ship formations based on improved genetic algorithm[J]. Chinese Journal of Ship Research, 2023, 18(3): 266–276 (in Chinese). doi: 10.19693/j.issn.1673-3185.02877
[18] 李博文, 李晶晶, 张龙剑, 等. 基于混合集群演化元博弈的海上对空反导杀伤链优选策略研究[J]. 中国舰船研究, 2025, 20: 1−12. doi: 10.19693/j.issn.1673-3185.04217. (查阅网上资料,未找到期号页码信息,请确认补充) LI B W, LI J J, ZHANG L J, et al. Research on optimal selection strategy of surface-to-air anti-missile kill chain based on mixed swarm evolutionary meta-game[J]. Chinese Journal of Ship Research, 2025, 20: 1−12. doi: 10.19693/j.issn.1673-3185.04217 (in Chinese).
[19] 田忠良, 刘昊. 智能算法在兵棋对抗推演中的应用[J]. 指挥控制与仿真, 2021, 43(1): 40–47. doi: 10.3969/j.issn.1673-3819.2021.01.008 TIAN Z L, LIU H. Application of intelligent algorithm in military chess antagonism deduction[J]. Command Control & Simulation, 2021, 43(1): 40–47 (in Chinese). doi: 10.3969/j.issn.1673-3819.2021.01.008
[20] 吴辰, 黄炎焱. 两栖上陆序贯兵力对抗模型效果分析[J]. 火力与指挥控制, 2024, 49(11): 59–64. doi: 10.3969/j.issn.1002-0640.2024.11.008 WU C, HUANG Y Y. Analysis of the effectiveness of amphibious landing sequential forces confrontation model[J]. Fire Control & Command Control, 2024, 49(11): 59–64 (in Chinese). doi: 10.3969/j.issn.1002-0640.2024.11.008
[21] 杨鹏程, 杨清清, 高盈盈, 等. 基于强化学习的海上移动目标搜索路径规划[J]. 系统工程与电子技术, 2024: 1−12. (查阅网上资料, 未找到卷期页码信息, 请确认补充) YANG P C, YANG Q Q, GAO Y Y, et al. Path planning for maritime moving targets search based on reinforcement learning[J]. Systems Engineering and Electronics, 2024: 1−12 (in Chinese).
[22] ZHENG Y P. Multimachine collaborative path planning method based on A* mechanism connection depth neural network model[J]. IEEE Access, 2022, 10: 47141–47153. doi: 10.1109/ACCESS.2022.3168719
[23] WANG Y F, ZHAO Y. Multiple ships cooperative navigation and collision avoidance using multi-agent reinforcement learning with communication[J]. Ocean Engineering, 2025, 320: 120244. doi: 10.1016/j.oceaneng.2024.120244
[24] YAN Y Z, LIU Y, BI Y, et al. Research on anti-submarine warfare method of unmanned aerial vehicle cluster based on area coverage and distributed optimization control[J]. Drones, 2024, 8(12): 732. doi: 10.3390/drones8120732
[25] WANG K F, XING R L, FENG W, et al. A method of UAV formation transformation based on reinforcement learning multi-agent[C]//Proceedings of the International Conference on Wireless Communications, Networking and Applications. Singapore: Springer, 2022: 187−195. doi: 10.1007/978-981-19-2456-9_20.
[26] 王健瑞, 黄家豪, 唐漾. 基于深度强化学习的不完美信息群智夺旗博弈[J]. 中国科学: 技术科学, 2023, 53(3): 405–416. doi: 10.1360/SST-2021-0382 WANG J R, HUANG J H, TANG Y. Swarm intelligence capture-the-flag game with imperfect information based on deep reinforcement learning[J]. Scientia Sinica (Technologica), 2023, 53(3): 405–416 (in Chinese). doi: 10.1360/SST-2021-0382
[27] ZHANG Y P, LIN Y J, WANG N. Reinforcement learning-based cooperative hunting for an unmanned surface vehicle swarm[C]//Proceedings of the 2024 International Conference on Fuzzy Theory and Its Applications (iFUZZY). Kagawa: IEEE, 2024: 1−6. doi: 10.1109/iFUZZY63051.2024.10661373.
[28] XU D, CHEN G. The research on intelligent cooperative combat of UAV cluster with multi-agent reinforcement learning[J]. Aerospace Systems, 2022, 5(1): 107–121. doi: 10.1007/s42401-021-00105-x
[29] JOHNSON B, MILLER S, NIXT M, et al. Game theory and prescriptive analytics for naval wargaming battle management aids[R]. Monterey: Naval Postgraduate School, 2022.
[30] MCCARTHY S M. Hierarchical planning in security games: a game theoretic approach to strategic, tactical and operational decision making[D]. Los Angeles: University of Southern California, 2018.
[31] COBLE J. Optimal naval movement simulation with reinforcement learning AI agents[J]. Defense Technical Information Center, 2023. (查阅网上资料, 未找到本条文献信息, 请确认)
[32] 胡水. 基于深度强化学习的智能兵棋推演决策方法[J]. 计算机工程, 2023, 49(9): 303–312. doi: 10.19678/j.issn.1000-3428.0067067 HU S. Intelligent wargame deduction decision method based on deep reinforcement learning[J]. Computer Engineering, 2023, 49(9): 303–312 (in Chinese). doi: 10.19678/j.issn.1000-3428.0067067
[33] HUANG C H, ZHU R C, QI X C, et al. A comparison and selecting model for ship traffic organization schemes based on cellular automata and the serial number sum theory[C]//Proceedings of the 2023 7th International Conference on Transportation Information and Safety (ICTIS). Xi'an: IEEE, 2023: 726−731. doi: 10.1109/ICTIS60134.2023.10243850.
[34] 杨鑫. 面向自主航行场景的船舶交通冲突解脱方法研究[D]. 武汉: 武汉理工大学, 2020. doi: 10.27381/d.cnki.gwlgu.2020.001916. YANG X. Research on the method of resolving conflicts in ship traffic for autonomous navigation scenarios[D]. Wuhan: Wuhan University of Technology, 2020. doi: 10.27381/d.cnki.gwlgu.2020.001916 (in Chinese).
[35] 谭箭, 周彩云, 谢卓廷. 交通冲突技术在水上交通领域的运用[J]. 武汉理工大学学报(交通科学与工程版), 2012, 36(2): 374–377. doi: 10.3963/j.issn.1006-2823.2012.02.036 TAN J, ZHOU C Y, XIE Z T. Traffic conflict technique’s application to waterway traffic area[J]. Journal of Wuhan University of Technology (Transportation Science & Engineering), 2012, 36(2): 374–377 (in Chinese). doi: 10.3963/j.issn.1006-2823.2012.02.036
[36] 程志友. 交汇水域船舶交通冲突作用机理及控制研究[D]. 武汉: 武汉理工大学, 2011. CHENG Z Y. Research on the ship traffic conflict’s mechanism and controlling in intersecting water[D]. Wuhan: Wuhan University of Technology, 2011 (in Chinese).
[37] 薛均晓, 陈金浦, 董博威, 等. 基于深度确定性策略梯度算法的航空母舰舰载机导引路径规划与仿真[J]. 计算机辅助设计与图形学学报, 2024: 1−14. doi: 10.3724/SP.J.1089.2024-00348. (查阅网上资料,未找到卷期页码信息,请确认补充) XUE J X, CHEN J P, DONG B W, et al. Path planning and simulation of carrier-based aircraft based on DDPG[J]. Journal of Computer-Aided Design & Computer Graphics, 2024: 1−14. doi: 10.3724/SP.J.1089.2024-00348 (in Chinese).
[38] QI L, ZHENG Z Y, GANG L. A cellular automaton model for ship traffic flow in waterways[J]. Physica A: Statistical Mechanics and its Applications, 2017, 471: 705–717. doi: 10.1016/j.physa.2016.12.028
[39] QI L, JI Y Y, BALLING R, et al. A cellular automaton-based model of ship traffic flow in busy waterways[J]. The Journal of Navigation, 2021, 74(3): 605–618. doi: 10.1017/S0373463320000636
[40] 杜意权. 沿海船舶航线规划方法研究与应用[D]. 大连: 大连海事大学, 2022. doi: 10.26989/d.cnki.gdlhu.2022.000280. DU Y Q. Research and application of coastal ship route planning methods[D]. Dalian: Dalian Maritime University, 2022. doi: 10.26989/d.cnki.gdlhu.2022.000280 (in Chinese).
[41] 陈怡. 欠驱商船自主靠泊轨迹规划研究[D]. 镇江: 江苏科技大学, 2023. doi: 10.27171/d.cnki.ghdcc.2023.000230. CHEN Y. Research on autonomous berthing trajectory planning for underdriven merchant ships[D]. Zhenjiang: Jiangsu University of Science and Technology, 2023. doi: 10.27171/d.cnki.ghdcc.2023.000230 (in Chinese).
[42] 王成飞, 董亚卓, 苏千叶, 等. 海战仿真中的智能对抗行为建模方法研究[J]. 指挥控制与仿真, 2022, 44(1): 79–85. doi: 10.3969/j.issn.1673-3819.2022.01.011 WANG C F, DONG Y Z, SU Q Y, et al. Research on modeling method of intelligent confrontation behavior in naval battle simulation[J]. Command Control & Simulation, 2022, 44(1): 79–85 (in Chinese). doi: 10.3969/j.issn.1673-3819.2022.01.011
[43] 聂皓冰, 王胜正, 胡志武, 等. 航线动态优化算法在海上搜救中的应用[J]. 上海海事大学学报, 2011, 32(4): 1–6,37. doi: 10.3969/j.issn.1672-9498.2011.04.001 NIE H B, WANG S Z, HU Z W, et al. Dynamic optimizing ship routeing algorithm for applications in maritime search and rescue[J]. Journal of Shanghai Maritime University, 2011, 32(4): 1–6,37 (in Chinese). doi: 10.3969/j.issn.1672-9498.2011.04.001
[44] 颜正恕. 基于遗传算法优化的海上运输事故预测模型设计[J]. 舰船科学技术, 2020, 42(14): 199–201. doi: 10.3404/j.issn.1672-7649.2020.7A.067 YAN Z S. Design of prediction model of marine transportation accident based on least square support vector machine optimized by genetic algorithm[J]. Ship Science and Technology, 2020, 42(14): 199–201 (in Chinese). doi: 10.3404/j.issn.1672-7649.2020.7A.067
[45] 邵丽丽. 海上航线规划的算法研究[D]. 青岛: 中国海洋大学, 2011. doi: 10.7666/d.y1926517. SHAO L L. Study on the planning of shipping route[D]. Qingdao: Ocean University of China, 2011. doi: 10.7666/d.y1926517 (in Chinese).
[46] LIN A N, WEN S L, ZHU M, et al. Optimal pricing and scheduling of seaport-ships coordination system: a game theoretic approach[J]. IEEE Transactions on Intelligent Vehicles, 2024, 9(2): 3558–3568. doi: 10.1109/TIV.2024.3351607
[47] GENG J, WANG N. Artificial intelligence scheduling and task planning for collaborative operations of remote-controlled submarines and manned submarines[C]//Proceedings of SPIE 13107, 4th International Conference on Sensors and Information Technology. Xiamen: SPIE, 2024: 1310743. doi: 10.1117/12.3029209.
[48] ŁĄCKI M. Multirole population of automated helmsmen in neuroevolutionary ship handling[J]. International Journal on Marine Navigation and Safety of Sea Transportation, 2011, 5(2): 255–260.
[49] WANG Z W, LI Z, LI Y, et al. Research on scheduling algorithm to improve the efficiency of carrier-based aircraft[C]//Proceedings of the 11th International Symposium on Project Management. Beijing: AAPH, 2023: 29−35. doi: 10.52202/070275-0005.
[50] LONG H, DUAN H B. Cooperative mission planning based on game theory for UAVs and USVs heterogeneous system in dynamic scenario[J]. Aircraft Engineering and Aerospace Technology, 2024, 96(9): 1128–1138. doi: 10.1108/AEAT-02-2023-0057
[51] MARTIN-IRADI B, PACINO D, ROPKE S. The multiport berth allocation problem with speed optimization: exact methods and a cooperative game analysis[J]. Transportation Science, 2022, 56(4): 972–999. doi: 10.1287/trsc.2021.1112
[52] SINGHT A N, VIJAYAKUMAR A, BALASUBRAMANIYAM S, et al. Deep reinforcement learning for ship collision avoidance and path tracking[C]//Proceedings of the ASME 43rd International Conference on Ocean, Offshore and Arctic Engineering (OMAE). Singapore: ASME, 2024. doi: 10.1115/OMAE2024-127557.
[53] WANG Z, XIANG X B, DUAN Y, et al. Adversarial deep reinforcement learning based robust depth tracking control for underactuated autonomous underwater vehicle[J]. Engineering Applications of Artificial Intelligence, 2024, 130: 107728. doi: 10.1016/j.engappai.2023.107728
[54] VASANKARI L. Multi-agent reinforcement learning for littoral naval warfare[D]. Helsinki: Aalto University, 2023.
[55] 李超超, 程兰惠, 杨赛赛, 等. 暗态势计算: 概念、方法与应用[J]. 计算机辅助设计与图形学学报, 2025, 37(4): 568–582. doi: 10.3724/SP.J.1089.2023-00341 LI C C, CHENG L H, YANG S S, et al. Dark situation evaluating: concepts, methods, and applications[J]. Journal of Computer-Aided Design & Computer Graphics, 2025, 37(4): 568–582 (in Chinese). doi: 10.3724/SP.J.1089.2023-00341
[56] ZHAO B C, HUO M Y, LI Z, et al. Graph-based multi-agent reinforcement learning for collaborative search and tracking of multiple UAVs[J]. Chinese Journal of Aeronautics, 2025, 38(3): 103214. doi: 10.1016/j.cja.2024.08.045
[57] 庞毅, 孙青林, 焦纲领, 等. 基于多Agent的舰艇编队对海攻击仿真系统[J]. 系统工程与电子技术, 2015, 37(10): 2396–2403. doi: 10.3969/j.issn.1001-506X.2015.10.32 PANG Y, SUN Q L, JIAO G L, et al. Warship formation anti-sea attack simulation system based on multi-Agent[J]. Systems Engineering and Electronics, 2015, 37(10): 2396–2403 (in Chinese). doi: 10.3969/j.issn.1001-506X.2015.10.32
[58] GUARDA T, VACA O B, PINGUAVE M P, et al. Wargames applied to naval decision-making process[C]//Proceedings of the Recent Advances in Information Systems and Technologies. Cham: Springer, 2017: 399−406. doi: 10.1007/978-3-319-56541-5_41.
[59] 徐学文, 王寿云. 现代作战模拟[M]. 北京: 科学出版社, 2001. XU X W, WANG S Y. Modern combat simulation[M]. Beijing: Science Press, 2001 (in Chinese).
[60] ENGEL J H. A verification of Lanchester's law[J]. Journal of the Operations Research Society of America, 1954, 2(2): 163–171. doi: 10.1287/opre.2.2.163
[61] 赵慧赟, 张东戈. 战场指挥控制时效性影响因素分析[J]. 军事运筹与系统工程, 2015, 29(2): 12−16, 49. doi: 10.3969/j.issn.1672-8211.2015.02.002. ZHAO H B, ZHANG D G. Analysis of factors influencing the timeliness of battlefield command and control[J]. Military Operations Research and Systems Engineering, 2015, 29(2): 12−16, 49. doi: 10.3969/j.issn.1672-8211.2015.02.002 (in Chinese). (查阅网上资料,未找到对应的英文翻译信息,请确认)
[62] 邓克波, 朱晶, 韩素颖, 等. 面向作战方案分析的计算机兵棋推演系统[J]. 指挥信息系统与技术, 2016, 7(5): 73–77. doi: 10.15908/j.cnki.cist.2016.05.012 DENG K B, ZHU J, HAN S Y, et al. Computer wargaming system for operation scheme analysis[J]. Command Information System and Technology, 2016, 7(5): 73–77 (in Chinese). doi: 10.15908/j.cnki.cist.2016.05.012
[63] LAUREN M K. Firepower concentration in cellular automaton combat models—an alternative to Lanchester[J]. Journal of the Operational Research Society, 2002, 53(6): 672–679. doi: 10.1057/palgrave.jors.2601355
[64] 陶鹏, 丁凡. 兰彻斯特方程在分布式海战背景下的应用[J]. 火力与指挥控制, 2024, 49(10): 82–90,102. doi: 10.3969/j.issn.1002-0640.2024.10.011 TAO P, DING F. The application research of lanchester equation in distributed maritime operations[J]. Fire Control & Command Control, 2024, 49(10): 82–90,102 (in Chinese). doi: 10.3969/j.issn.1002-0640.2024.10.011
[65] 高鑫. 基于兰彻斯特方程离散化的现代海战效能研究[J]. 指挥控制与仿真, 2018, 40(5): 53–56. doi: 10.3969/j.issn.1673-3819.2018.05.011 GAO X. Research on the efficiency of modern naval warfare based on the discretization of Lanchester equation[J]. Command Control & Simulation, 2018, 40(5): 53–56 (in Chinese). doi: 10.3969/j.issn.1673-3819.2018.05.011
[66] 赵畅. 黄海海战的兰彻斯特数学模型[J]. 佳木斯大学学报(自然科学版), 2015, 33(6): 819–820, 829. doi: 10.3969/j.issn.1008-1402.2015.06.007 ZHAO C. Lancherster mathematical model of battle of Yalu river[J]. Journal of Jiamusi University (Natural Science Edition), 2015, 33(6): 819–820 (in Chinese). doi: 10.3969/j.issn.1008-1402.2015.06.007
[67] 陈向勇, 井元伟, 李春吉, 等. 基于Lanchester方程的一类海战实例的决策分析[J]. 东北大学学报(自然科学版), 2009, 30(4): 535−838. doi: 10.3969/j.issn.1005-3026.2009.04.020. CHEN X Y, JING Y W, LI C J, et al. Analysis of optimum strategy using Lanchester equation for naval battles like Trafalgar[J]. Journal of Northeastern University (Natural Science), 2009, 30(4): 535−538. doi: 10.3969/j.issn.1005-3026.2009.04.020 (in Chinese).
[68] 陈向勇, 井元伟, 李春吉, 等. 基于Lanchester方程的一类海战实例的决策分析[J]. 东北大学学报(自然科学版), 2009, 30(4): 535−538. doi: 10.3969/j.issn.1005-3026.2009.04.020. (查阅网上资料,本条文献与第67条文献重复,请确认) CHEN X Y, JING Y W, LI C J, et al. Analysis of optimum strategy using Lanchester equation for naval battles like Trafalgar[J]. Journal of Northeastern University (Natural Science), 2009, 30(4): 535−538. doi: 10.3969/j.issn.1005-3026.2009.04.020 (in Chinese).
[69] 王威, 闵绍荣, 谢红胜, 等. 用于舰艇效能评估的兰彻斯特方程改进研究[J]. 中国舰船研究, 2013, 8(1): 98–101. doi: 10.3969/j.issn.1673-3185.2013.01.015 WANG W, MIN S R, XIE H S, et al. Improved Lanchester Equations for the ships’ operational effectiveness evaluation[J]. Chinese Journal of Ship Research, 2013, 8(1): 98–101 (in Chinese). doi: 10.3969/j.issn.1673-3185.2013.01.015
[70] (查阅网上资料, 请联系作者补充本条文献)
[71] 吕学志. 基于非连续兰彻斯特方程的战役态势预测方法[J]. 火力与指挥控制, 2024, 49(7): 58–63,69. doi: 10.3969/j.issn.1002-0640.2024.07.009 LV X Z. Campaign situation prediction method based on discontinuous Lanchester equation[J]. Fire Control & Command Control, 2024, 49(7): 58–63,69 (in Chinese). doi: 10.3969/j.issn.1002-0640.2024.07.009
[72] 于括, 张峥. 基于兰彻斯特方程的舰载机防空作战模型[J]. 舰船电子工程, 2018, 38(1): 25–28. doi: 10.3969/j.issn.1672-9730.2018.01.007 YU K, ZHANG Z. Model of carrier aircraft air defense operation based on Lanchester equation[J]. Ship Electronic Engineering, 2018, 38(1): 25–28 (in Chinese). doi: 10.3969/j.issn.1672-9730.2018.01.007
[73] 于凤全, 周晓光, 赵仁厚. 基于随机兰彻斯特方程的舰载机空战建模分析[J]. 计算机技术与发展, 2013, 23(5): 199–201,205. doi: 10.3969/j.issn.1673-629X.2013.05.051 YU F Q, ZHOU X G, ZHAO R H. Modeling and analysis of air combat of carrier-borne fighter based on stochastic Lanchester battle theory[J]. Computer Technology and Development, 2013, 23(5): 199–201,205 (in Chinese). doi: 10.3969/j.issn.1673-629X.2013.05.051
[74] 任东彦, 刘文宝, 王浩能. 基于投影法的兰彻斯特平方律在海战中的应用研究[J]. 舰船电子工程, 2021, 41(2): 110–112,131. doi: 10.3969/j.issn.1672-9730.2021.02.026 REN D Y, LIU W B, WANG H N. Research on application of Lanchester square law based on projection method in naval war[J]. Ship Electronic Engineering, 2021, 41(2): 110–112,131 (in Chinese). doi: 10.3969/j.issn.1672-9730.2021.02.026
[75] 贾永楠, 焦宇航, 陈萱, 等. 基于动态贝叶斯网络的多无人机集群对抗策略[J]. 工程科学学报, 2024, 46(7): 1216–1226. doi: 10.13374/j.issn2095-9389.2023.10.12.001 JIA Y N, JIAO Y H, CHEN X, et al. Research on the multiple unmanned aerial vehicle swarm confrontation strategy based on the dynamic Bayesian network[J]. Chinese Journal of Engineering, 2024, 46(7): 1216–1226 (in Chinese). doi: 10.13374/j.issn2095-9389.2023.10.12.001
[76] 胡晓峰, 罗批, 司光亚, 等. 战争复杂系统建模与仿真[M]. 北京: 国防大学出版社, 2005. HU X F, LUO P, SI G Y, et al. War complex system modeling & simulation[M]. Beijing: National Defense University Press, 2005 (in Chinese).
[77] NASH JR J F. Equilibrium points in n-person games[J]. Proceedings of the National Academy of Sciences of the United States of America, 1950, 36(1): 48–49. doi: 10.1073/pnas.36.1.48
[78] KREPS D M. Nash equilibrium[M]//EATWELL J, MILGATE M, NEWMAN P. Game Theory. London: Springer, 1989: 167−177. doi: 10.1007/978-1-349-20181-5_19.
[79] SMITH J M, PRICE G R. The logic of animal conflict[J]. Nature, 1973, 246(5427): 15–18. doi: 10.1038/246015a0
[80] FAN H W, LU J, CHANG Z. A risk-based game theory model of navy and pirate behaviors[J]. Ocean & Coastal Management, 2022, 225: 106200. doi: 10.1016/j.ocecoaman.2022.106200
[81] OLIVA G, SETOLA R, TESEI M. A Stackelberg game-theoretical approach to maritime counter-piracy[J]. IEEE Systems Journal, 2019, 13(1): 982–993. doi: 10.1109/JSYST.2018.2795892
[82] AKBEL O, KALAYCIOĞLU A. A solution to dynamic weapon assignment problem based on game theory for naval platforms[J]. Games, 2024, 15(5): 33. doi: 10.3390/g15050033
[83] REED J O, GELPI P, WINEMAN B, et al. Evolution of warfare: canonizing science to evolve the game[R]. Quantico: Marine Corps University, 2020.
[84] GRAFEN A. The hawk-dove game played between relatives[J]. Animal Behaviour, 1979, 27: 905–907. doi: 10.1016/0003-3472(79)90028-9
[85] ROBERSON B. The colonel blotto game[J]. Economic Theory, 2006, 29(1): 1–24. doi: 10.1007/s00199-005-0071-5
[86] YANG Z S. Evolutionary game analysis on strategies of multiple stakeholders in vessel safety supervision system[C]//Proceedings of the 2023 7th International Conference on Transportation Information and Safety (ICTIS). Xi'an: IEEE, 2023: 88−93. doi: 10.1109/ICTIS60134.2023.10243834.
[87] WEI N, LIU M Y. AUV antagonistic tactics study for naval battle based on dynamic game[C]//Proceedings of the IEEE International Conference on Robotics and Biomimetics (ROBIO). Macau, China: IEEE, 2017: 1418−1423. doi: 10.1109/ROBIO.2017.8324616.
[88] XU M L, JIANG H, JIN X G, et al. Crowd simulation and its applications: recent advances[J]. Journal of Computer Science and Technology, 2014, 29(5): 799–811. doi: 10.1007/s11390-014-1469-y
[89] 陈伟能, 卢暾, 蒋嶷川, 等. 群智演化协同计算的研究进展与趋势[J]. 华南师范大学学报(自然科学版), 2023, 55(1): 1–18. doi: 10.6054/j.jscnun.2023001 CHEN W N, LU T, JIANG Y C, et al. Advances and trends in crowd intelligence evolutionary and collaborative computation[J]. Journal of South China Normal University (Natural Science Edition), 2023, 55(1): 1–18 (in Chinese). doi: 10.6054/j.jscnun.2023001
[90] REYNOLDS C W. Flocks, herds and schools: A distributed behavioral model[C]//Proceedings of the 14th Annual Conference on Computer Graphics and Interactive Techniques. ACM, 1987: 25–34. doi: 10.1145/37401.37406. (查阅网上资料,未找到对应的出版地信息,请确认补充)
[91] YANG S W, LI T R, GONG X, et al. A review on crowd simulation and modeling[J]. Graphical Models, 2020, 111: 101081. doi: 10.1016/j.gmod.2020.101081
[92] GUSTAFSON S, ARUMUGAM H, KANYUK P, et al. MURE: fast agent based crowd simulation for VFX and animation[C]//Proceedings of the ACM SIGGRAPH 2016 Talks. Anaheim: ACM, 2016: 56. doi: 10.1145/2897839.2927396.
[93] RYU D, KANYUK P. Rivers of rodents: an animation-centric crowds pipeline for Ratatouille[C]//Proceedings of the ACM SIGGRAPH 2007 sketches. San Diego: ACM, 2007: 65. doi: 10.1145/1278780.1278859. (查阅网上资料,页码信息不确定,请确认)
[94] WOLINSKI D, GUY S J, OLIVIER A H, et al. Parameter estimation and comparative evaluation of crowd simulations[J]. Computer Graphics Forum, 2014, 33(2): 303–312. doi: 10.1111/cgf.12328
[95] ULICNY B, THALMANN D. Towards interactive real‐time crowd behavior simulation[J]. Computer Graphics Forum, 2002, 21(4): 767–775. doi: 10.1111/1467-8659.00634
[96] MCKENZIE F D, PETTY M D, KRUSZEWSKI P A, et al. Integrating crowd-behavior modeling into military simulation using game technology[J]. Simulation & Gaming, 2008, 39(1): 10–38. doi: 10.1177/1046878107308092
[97] PETTY M D, MCKENZIE F D, GASKINS R C, et al. Developing a crowd federate for military simulation[C]//Proceedings of the the Spring 2004 Simulation Interoperability Workshop (SIW). 2004: 483−493. (查阅网上资料, 未找到本条文献信息, 请确认)
[98] BELLAS R, MARTÍNEZ J, RIVERA I, et al. Analysis of naval ship evacuation using stochastic simulation models and experimental data sets[J]. Computer Modeling in Engineering & Sciences, 2020, 122(3): 971–995. doi: 10.32604/cmes.2020.07530
[99] CROCIANI L, LÄMMEL G. Multidestination pedestrian flows in equilibrium: a cellular automaton-based approach[J]. Computer-Aided Civil and Infrastructure Engineering, 2016, 31(6): 432–448. doi: 10.1111/mice.12209
[100] HELBING D, FARKAS I, VICSEK T. Simulating dynamical features of escape panic[J]. Nature, 2000, 407(6803): 487–490. doi: 10.1038/35035023
[101] HUGHES R L. A continuum theory for the flow of pedestrians[J]. Transportation Research Part B: Methodological, 2002, 36(6): 507–535. doi: 10.1016/S0191-2615(01)00015-7
[102] 刘满, 张宏军, 徐有为, 等. 群队级兵棋实体智能行为决策方法研究[J]. 系统工程与电子技术, 2022, 44(8): 2562–2569. doi: 10.12305/j.issn.1001-506X.2022.08.21 LIU M, ZHANG H J, XU Y W, et al. Research on behavior decision-making of multi entities in group-level wargame[J]. Systems Engineering and Electronics, 2022, 44(8): 2562–2569 (in Chinese). doi: 10.12305/j.issn.1001-506X.2022.08.21
[103] 田佩, 臧兆祥, 郭鸿村, 等. 海空兵棋中基于行为树的智能决策方法[J]. 长江信息通信, 2022, 35(4): 122–126. doi: 10.3969/j.issn.1673-1131.2022.04.043 TIAN P, ZANG Z X, GUO H C, et al. Intelligent decision-making method based on behavior tree in sea-air wargames[J]. Changjiang Information & Communications, 2022, 35(4): 122–126 (in Chinese). doi: 10.3969/j.issn.1673-1131.2022.04.043
[104] COLLENDANCHISE M, ÖGREN P. Behavior trees in robotics and AI: an introduction[M]. Boca Raton: CRC Press, 2018. doi: 10.1201/9780429489105.
[105] LAUREN M K. Fractal methods applied to describe cellular automaton combat models[J]. Fractals, 2001, 9(2): 177–184. doi: 10.1142/S0218348X01000609
[106] 朱菊霞. 海上电子对抗的系统模型研究及仿真[J]. 舰船科学技术, 2016, 38(14): 175–177. doi: 10.3404/j.issn.1672-7649.2016.7A.059 ZHU J X. Research and simulation of system model for marine electronic countermeasures[J]. Ship Science and Technology, 2016, 38(14): 175–177 (in Chinese). doi: 10.3404/j.issn.1672-7649.2016.7A.059
[107] FALCON R, ABIELMONA R, BLASCH E. Behavioral learning of vessel types with fuzzy-rough decision trees[C]//Proceedings of the 17th International Conference on Information Fusion (FUSION). Salamanca: IEEE, 2014: 1−8.
[108] LIU J X, LIU Y, QI L. Modelling liquefied natural gas ship traffic in port based on cellular automaton and multi-agent system[J]. The Journal of Navigation, 2021, 74(3): 533–548. doi: 10.1017/S0373463321000059
[109] MURPHY K P. Machine learning: a probabilistic perspective[M]. Cambridge: MIT Press, 2012.
[110] LIU X, ZHANG F J, HOU Z Y, et al. Self-supervised learning: generative or contrastive[J]. IEEE Transactions on Knowledge and Data Engineering, 2023, 35(1): 857–876. doi: 10.1109/TKDE.2021.3090866
[111] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. Cambridge: MIT Press, 1998.
[112] ROSENBLATT F. The perceptron: a probabilistic model for information storage and organization in the brain[J]. Psychological Review, 1958, 65(6): 386–408. doi: 10.1037/h0042519
[113] JONES R M, LAIRD J E, NIELSEN P E, et al. Automated intelligent pilots for combat flight simulation[J]. AI Magazine, 1999, 20(1): 27–41.
[114] 罗荣, 王潋, 马焱, 等. 深度学习研究现状及在海战场指挥信息系统中应用展望[J]. 舰船电子工程, 2020, 40(11): 1–6,52. doi: 10.3969/j.issn.1672-9730.2020.11.001 LUO R, WANG L, MA Y, et al. Research status of Geep learning and its application prospect in command information system of sea battlefield[J]. Ship Electronic Engineering, 2020, 40(11): 1–6,52 (in Chinese). doi: 10.3969/j.issn.1672-9730.2020.11.001
[115] 王可, 刘奕阳, 杨杰, 等. 基于自适应特征增强和融合的舰载机着舰拉制状态识别[J]. 上海交通大学学报, 2025, 59(2): 274–282. doi: 10.16183/j.cnki.jsjtu.2023.263 WANG K, LIU Y Y, YANG J, et al. Landing state recognition of carrier-based aircraft based on adaptive feature enhancement and fusion[J]. Journal of Shanghai Jiao Tong University, 2025, 59(2): 274–282 (in Chinese). doi: 10.16183/j.cnki.jsjtu.2023.263
[116] MINGUELA-CASTRO G, HERADIO R, CERRADA C. Automated support for battle operational–strategic decision-making[J]. Mathematics, 2021, 9(13): 1534. doi: 10.3390/math9131534
[117] 张路平, 芦伟, 杨志群, 等. 一种海上群体智能对抗的仿真架构研究[C]//“第四届水下无人系统技术高峰论坛”——有人/无人协同技术论文集. 西安: 中国造船工程学会, 西北工业大学, 中国船舶集团有限公司第七〇五研究所, 2021: 203−209. doi: 10.26914/c.cnkihy.2021.043245. ZHANG L P, LU W, YANG Z Q, et al. Research on simulation architecture of marine swarm intelligence confrontation[C]//Xi’an: The Chinese Society of Naval Architects and Marine Engineers, Northwestern Polytechnical University, China Shipbuilding Industry Corporation 705 Research Institute, 2021: 203−209. doi: 10.26914/c.cnkihy.2021.043245 (in Chinese). (查阅网上资料,未找到母体文献对应的英文翻译信息,请确认补充)
[118] BLASCH E P, BRETON R, VALIN P, et al. User information fusion decision making analysis with the C-OODA model[C]//Proceedings of the 14th International Conference on Information Fusion. Chicago: IEEE, 2011: 1−8.
[119] MA X L, ABDELFATTAH W, LUO D, et al. Non-cooperative game theory with generative adversarial network for effective decision-making in military cyber warfare[J]. Annals of Operations Research, 2024. doi: 10.1007/s10479-024-06406-6. (查阅网上资料,未找到卷期页码信息,请确认补充)
[120] ZHANG L A, XU J, GOLD D, et al. Air dominance through machine learning[J]. Santa Monica: RAND Corporation, 2020.
[121] DI BERTO MANCINI G, FIORAVANTI C, SACCHETTI M, et al. Anomalous vessel behavior detection via offline clustering of regular trajectories[C]//Proceedings of the 32nd Mediterranean Conference on Control and Automation. Chania-Crete, Greece: IEEE, 2024: 730−735. doi: 10.1109/MED61351.2024.10566164.
[122] ERCETIN A. Operational-level naval planning using agent-based simulation[C]//Proceedings of the 6th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2007). New York, NY, USA, 2001. (查阅网上资料, 未找到本条文献信息, 请确认)
[123] 龙红军, 刘佳铭. 海战场作战资源规划方法研究综述[J]. 舰船电子工程, 2021, 41(9): 16–19. doi: 10.3969/j.issn.1672-9730.2021.09.004 LONG H J, LIU J M. Summary of research on the method of combat resource planning in naval battlefield[J]. Ship Electronic Engineering, 2021, 41(9): 16–19 (in Chinese). doi: 10.3969/j.issn.1672-9730.2021.09.004
[124] XU M L, WANG Z, MENG Y, et al. Virtual-physical digital twin testbed for heterogeneous crowd operations[J]. Science China Information Sciences, 2025, 68(5): 154101. doi: 10.1007/s11432-024-4339-5
[125] 李亚飞, 高磊, 蒿宏杰, 等. 舰载机保障作业人机协同决策方法[J]. 中国科学: 信息科学, 2023, 53(12): 2493–2510. doi: 10.1360/SSI-2022-0403 LI Y F, GAO L, GAO H J, et al. Human-machine collaborative decision-making for carrier aircraft support operations[J]. Scientia Sinica (Informationis), 2023, 53(12): 2493–2510 (in Chinese). doi: 10.1360/SSI-2022-0403
[126] 傅调平, 张奥狄, 马滨强. 机器博弈海战兵棋推演系统的设计实现[J]. 计算机仿真, 2015, 32(3): 14–18. doi: 10.3969/j.issn.1006-9348.2015.03.004 FU T P, ZHANG A D, MA B Q. Design and realization of the naval war game system based on computer game[J]. Computer Simulation, 2015, 32(3): 14–18 (in Chinese). doi: 10.3969/j.issn.1006-9348.2015.03.004
[127] 傅调平, 陈建华, 刘玉树. 基于智能主体的海战仿真平台设计与实现[C]//2004系统仿真技术及其应用学术交流会论文集. 合肥: 中国科学技术大学自动化系, 中国自动化学会系统仿真专业委员会, 中国系统仿真学会仿真计算机与软件专业委员会, 2004: 32. FU T P, CHEN J H, LIU Y S. Design and realization of a agent-based tactical simulation platform[C]//The Proceedings of the Academic Exchange Conference on System Simulation Technology and Its Applications. Hefei: 2005: 32 (in Chinese). (查阅网上资料, 未找到母体文献及出版者对应的英文翻译信息, 请确认补充)
[128] 苏炯铭, 罗俊仁, 陈少飞, 等. 海空跨域协同兵棋AI架构设计及关键技术分析[J]. 指挥控制与仿真, 2024, 46(2): 35–43. doi: 10.3969/j.issn.1673-3819.2024.02.006 SU J M, LUO J R, CHEN S F, et al. Architecture design and key technologies analysis of wargaming AI for sea-air cross-domain coordination[J]. Command Control & Simulation, 2024, 46(2): 35–43 (in Chinese). doi: 10.3969/j.issn.1673-3819.2024.02.006
[129] TIAN C P, ZHANG H, LI Y, et al. Research on the intelligent countermeasure based on the multi-aircraft cooperative combat behavior tree[C]//Proceedings of the 2022 IEEE 24th International Conference on High Performance Computing & Communications; 8th International Conference on Data Science & Systems; 20th International Conference on Smart City; 8th International Conference on Dependability in Sensor, Cloud & Big Data Systems & Application (HPCC/DSS/SmartCity/DependSys). Hainan: IEEE, 2022: 2189−2197. doi: 10.1109/HPCC-DSS-SmartCity-DependSys57074.2022.00324.
[130] 李承兴, 高桂清, 鞠金鑫, 等. 基于人工智能深度增强学习的装备维修保障兵棋研究[J]. 兵器装备工程学报, 2018, 39(2): 61–65. doi: 10.11809/scbgxb2018.02.013 LI C X, GAO G Q, JU J X, et al. Study on equipment maintenance and security based on artificial intelligence depth enhancement[J]. Journal of Ordnance Equipment Engineering, 2018, 39(2): 61–65 (in Chinese). doi: 10.11809/scbgxb2018.02.013
[131] VINCENT B. How Marine Corps University is experimenting with generative AI in simulations and wargaming[EB/OL]. (2023-06-28)[2024-10-28]. https://defensescoop.com/2023/06/28/how-marine-corps-university-is-experimenting-with-generative-ai-in-simulations-and-wargaming/.
[132] KIDD M. Applying Bayesian belief networks as a tool for structuring and evaluating the planning of naval operations[J]. Military Operations Research, 2002, 7(4): 25–34. doi: 10.5711/morj.7.4.25
[133] WANG H N, LIU N, ZHANG Y Y, et al. Deep reinforcement learning: a survey[J]. Frontiers of Information Technology & Electronic Engineering, 2020, 21(12): 1726–1744. doi: 10.1631/FITEE.1900533
[134] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484–489. doi: 10.1038/nature16961
[135] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of go without human knowledge[J]. Nature, 2017, 550(7676): 354–359. doi: 10.1038/nature24270
[136] SILVER D, HUBERT T, SCHRITTWIESER J, et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play[J]. Science, 2018, 362(6419): 1140–1144. doi: 10.1126/science.aar6404
[137] SCHRITTWIESER J, ANTONOGLOU I, HUBERT T, et al. Mastering Atari, go, chess and shogi by planning with a learned model[J]. Nature, 2020, 588(7839): 604–609. doi: 10.1038/s41586-020-03051-4
[138] BERNER C, BROCKMAN G, CHAN B, et al. Dota 2 with large scale deep reinforcement learning[J]. arXiv: 1912.06680, 2019. doi: 10.48550/arXiv.1912.06680. (查阅网上资料,不确定文献类型及格式是否正确,请确认)
[139] SOUCHLERIS K, SIDIROPOULOS G K, PAPAKOSTAS G A. Reinforcement learning in game industry-review, prospects and challenges[J]. Applied Sciences, 2023, 13(4): 2443. doi: 10.3390/app13042443
[140] VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft Ⅱ using multi-agent reinforcement learning[J]. Nature, 2019, 575(7782): 350–354. doi: 10.1038/s41586-019-1724-z
[141] WANG X J, SONG J X, QI P H, et al. SCC: An efficient deep reinforcement learning agent mastering the game of StarCraft II[C]//Proceedings of the 38th International Conference on Machine Learning. ICML, 2021: 10905−10915.
[142] LIU R Z, PANG Z J, MENG Z Y, et al. On efficient reinforcement learning for full-length game of starcraft II[J]. Journal of Artificial Intelligence Research, 2022, 75: 213–260. doi: 10.1613/jair.1.13743
[143] HUANG R Z, WU X P, YU H S, et al. A robust and opponent-aware league training method for StarCraft II[C]//Proceedings of the 37th International Conference on Neural Information Processing Systems. New Orleans: ACM, 2023: 2060.
[144] HE H, BOYD-GRABER J L. Opponent modeling in deep reinforcement learning[C]//Proceedings of the 33rd International Conference on Machine Learning. New York: ICML, 2016: 1804−1813.
[145] ALBRECHT S V, STONE P. Autonomous agents modelling other agents: a comprehensive survey and open problems[J]. Artificial Intelligence, 2018, 258: 66–95. doi: 10.1016/j.artint.2018.01.002
[146] FU H B, TIAN Y, YU H X, et al. Greedy when sure and conservative when uncertain about the opponents[C]//Proceedings of the 39th International Conference on Machine Learning. Baltimore: ICML, 2022: 6829−6848.
[147] RAILEANU R, DENTON E, SZLAM A, et al. Modeling others using oneself in multi-agent reinforcement learning[C]//Proceedings of the 35th International Conference on Machine Learning. Stockholm: ICML, 2018: 4257−4263.
[148] ZHENG Y, MENG Z P, HAO J Y, et al. A deep bayesian policy reuse approach against non-stationary agents[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal: ACM, 2018: 962−972.
[149] 王臆淞, 张鹏翼, 顾启佳, 等. ASM2: 面向海空联合场景的多对手多智能体博弈算法[J]. 控制理论与应用, 2024: 1−9. (查阅网上资料, 未找到卷期页码信息, 请确认补充) WANG Y S, ZHANG P Y, GU Q J, et al. ASM2: Multi-agent multi-opponent game algorithm for joint sea-air scenarios[J]. Control Theory & Applications, 2024: 1−9 (in Chinese). (查阅网上资料, 未找到对应的英文翻译信息, 请确认)
[150] YU C, VELU A, VINITSKY E, et al. The surprising effectiveness of PPO in cooperative multi-agent games[C]//Proceedings of the 36th International Conference on Neural Information Processing Systems. New Orleans: ACM, 2022: 1787.
[151] ZHAO X Y, YANG M, PENG C, et al. Research on intelligent operational assisted decision-making of naval battlefield based on deep reinforcement learning[C]//Proceedings of the 3rd International Conference on Advanced Information Science and System. Sanya: ACM, 2021: 10. doi: 10.1145/3503047.3503057.
[152] 施伟, 冯旸赫, 程光权, 等. 基于深度强化学习的多机协同空战方法研究[J]. 自动化学报, 2021, 47(7): 1610–1623. doi: 10.16383/j.aas.c201059 SHI W, FENG Y H, CHENG G Q, et al. Research on multi-aircraft cooperative air combat method based on deep reinforcement learning[J]. Acta Automatica Sinica, 2021, 47(7): 1610–1623 (in Chinese). doi: 10.16383/j.aas.c201059
[153] 刘全, 翟建伟, 章宗长, 等. 深度强化学习综述[J]. 计算机学报, 2017, 40(1): 1–28. doi: 10.11897/SP.J.1016.2017.00001 LIU Q, ZHAI J W, ZHANG Z Z, et al. A survey on deep reinforcement learning[J]. Chinese Journal of Computers, 2017, 40(1): 1–28 (in Chinese). doi: 10.11897/SP.J.1016.2017.00001
[154] JUNG C H, PARK C Y, CHI S D, et al. The battle warship simulation of agent-based with reinforcement and evolutionary learning[J]. Journal of the Korea Society for Simulation, 2012, 21(4): 65–73. doi: 10.9709/JKSS.2012.21.4.065
[155] 崔文华, 李东, 唐宇波, 等. 基于深度强化学习的兵棋推演决策方法框架[J]. 国防科技, 2020, 41(2): 113–121. doi: 10.13943/j.issn1671-4547.2020.02.21 CUI W H, LI D, TANG Y B, et al. Framework of wargaming decision-making methods based on deep reinforcement learning[J]. National Defense Science Technology, 2020, 41(2): 113–121 (in Chinese). doi: 10.13943/j.issn1671-4547.2020.02.21
[156] WALTER M, BARRETT A, WALKER D, et al. Adversarial AI testcases for maritime autonomous systems[J]. AI, Computer Science and Robotics Technology, 2023. doi: 10.5772/ACRT.15. (查阅网上资料,未找到卷期页码信息,请确认补充)
[157] SUN Y, LIU J, SUN Q. From Starcraft Ⅱ to military combat: the framework of auxiliary decision system on marine warfare based on artificial intelligence[C]//Proceedings of the 11th International Conference on Computing and Pattern Recognition. Beijing: ACM, 2022: 595−602. doi: 10.1145/3581807.3581895.
[158] 张晓海, 操新文, 耿松涛, 等. 基于深度学习的军事辅助决策智能化研究[J]. 兵器装备工程学报, 2018, 39(10): 162–167. doi: 10.11809/bqzbgcxb2018.10.033 ZHANG X H, CAO X W, GENG S T, et al. Research on intelligence of military auxiliary decision-making system based on deep learning[J]. Journal of Ordnance Equipment Engineering, 2018, 39(10): 162–167 (in Chinese). doi: 10.11809/bqzbgcxb2018.10.033
[159] ILAHI I, USAMA M, QADIR J, et al. Challenges and countermeasures for adversarial attacks on deep reinforcement learning[J]. IEEE Transactions on Artificial Intelligence, 2022, 3(2): 90–109. doi: 10.1109/TAI.2021.3111139
[160] 曾贲, 房霄, 孔德帅, 等. 一种数据驱动的对抗博弈智能体建模方法[J]. 系统仿真学报, 2021, 33(12): 2838–2845. doi: 10.16182/j.issn1004731x.joss.20-FZ0532 ZENG B, FANG X, KONG D S, et al. A data-driven modeling method for game adversity agent[J]. Journal of System Simulation, 2021, 33(12): 2838–2845 (in Chinese). doi: 10.16182/j.issn1004731x.joss.20-FZ0532
[161] WANG J S, WANG J, HE J Z, et al. Research on naval air defense intelligent operations on deep reinforcement learning[C]//Proceedings of the 2022 34th Chinese Control and Decision Conference (CCDC). Hefei: IEEE, 2022: 2246−2252. doi: 10.1109/CCDC55256.2022.10034115.
[162] GRONDMAN I, BUSONIU L, LOPES G A D, et al. A survey of actor-critic reinforcement learning: Standard and natural policy gradients[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2012, 42(6): 1291–1307. doi: 10.1109/TSMCC.2012.2218595
[163] BABAEIZADEH M, FROSIO I, TYREE S, et al. GA3C: GPU-based A3C for deep reinforcement learning[J]. arXiv: 1611.06256, 2016. doi: 10.48550/arXiv.1611.06256. (查阅网上资料,不确定文献类型及格式是否正确,请确认)
[164] 张驭龙, 范长俊, 冯旸赫, 等. 任务级兵棋智能决策技术框架设计与关键问题分析[J]. 指挥与控制学报, 2024, 10(1): 19–25. doi: 10.3969/j.issn.2096-0204.2024.01.0019 ZHANG Y L, FAN C J, FENG Y H, et al. Technical framework design and key issues analysis in task-level wargame intelligent decision making[J]. Journal of Command and Control, 2024, 10(1): 19–25 (in Chinese). doi: 10.3969/j.issn.2096-0204.2024.01.0019
[165] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. doi: 10.1038/nature14236
[166] 卢锐, 彭鹏菲. 基于深度强化学习的海上编队防空任务分配[J]. 火力与指挥控制, 2023, 48(6): 35–41. doi: 10.3969/j.issn.1002-0640.2023.06.006 LU R, PENG P F. Maritime formation air defense task assignment based on deep reinforcement learning[J]. Fire Control & Command Control, 2023, 48(6): 35–41 (in Chinese). doi: 10.3969/j.issn.1002-0640.2023.06.006
[167] 黄晓冬, 苑海涛, 毕敬, 等. 基于DQN的海战场舰船路径规划及仿真[J]. 系统仿真学报, 2021, 33(10): 2440–2448. doi: 10.16182/j.issn1004731x.joss.21-0229 HUANG X D, YUAN H T, BI J, et al. DQN-based path planning method and simulation for submarine and warship in naval battlefield[J]. Journal of System Simulation, 2021, 33(10): 2440–2448 (in Chinese). doi: 10.16182/j.issn1004731x.joss.21-0229
[168] PU H Y, WANG J D, GAO S H, et al. A velocity-domain MAPPO approach for perimeter defensive confrontation by USV groups[J]. Expert Systems with Applications, 2025, 265: 125980. doi: 10.1016/j.eswa.2024.125980
[169] BILDIK E, TSOURDOS A, PERRUSQUÍA A, et al. Decoys deployment for missile interception: a multi-agent reinforcement learning approach[J]. Aerospace, 2024, 11(8): 684. doi: 10.3390/AEROSPACE11080684
[170] TAN H N. Reinforcement learning with deep deterministic policy gradient[C]//Proceedings of the 2021 International Conference on Artificial Intelligence, Big Data and Algorithms (CAIBDA). Xi'an: IEEE, 2021: 82−85. doi: 10.1109/CAIBDA53561.2021.00025.
[171] 石鼎, 燕雪峰, 宫丽娜, 等. 强化学习驱动的海战场多智能体协同作战仿真算法[J]. 系统仿真学报, 2023, 35(4): 786–796. doi: 10.16182/j.issn1004731x.joss.21-1321 SHI D, YAN X F, GONG L N, et al. Multi-agent cooperative combat simulation in naval battlefield with reinforcement learning[J]. Journal of System Simulation, 2023, 35(4): 786–796 (in Chinese). doi: 10.16182/j.issn1004731x.joss.21-1321
[172] RAO J J, XU X Q, BIAN H R, et al. A modified random network distillation algorithm and its application in USVs naval battle simulation[J]. Ocean Engineering, 2022, 261: 112147. doi: 10.1016/j.oceaneng.2022.112147
[173] VASANKARI L, SAASTAMOINEN K. Strategizing the shallows: leveraging multi-agent reinforcement learning for enhanced tactical decision-making in littoral naval warfare[C]//Proceedings of the 20th IFIP WG 12.5 International Conference on Artificial Intelligence Applications and Innovations. Corfu: Springer, 2024: 129−141. doi: 10.1007/978-3-031-63215-0_10.
[174] 尹强, 叶雄兵. 作战筹划方法研究[J]. 国防科技, 2016, 37(1): 95–99. doi: 10.13943/j.issn1671-4547.2016.01.22 YIN Q, YE X B. The initially research for the method of operational design[J]. National Defense Science & Technology, 2016, 37(1): 95–9 (in Chinese). doi: 10.13943/j.issn1671-4547.2016.01.22
[175] WU M J, YIN D W. Research on auxiliary decision-making for sea striking of naval aviation based on deep reinforcement learning[C]//Proceedings of SPIE 12782, 3rd International Conference on Image Processing and Intelligent Control. Kuala Lumpur: SPIE, 2023: 1278210. doi: 10.1117/12.3000933.
[176] WANG G C, WEI F L, JIANG Y, et al. A multi-AUV maritime target search method for moving and invisible objects based on multi-agent deep reinforcement learning[J]. Sensors, 2022, 22(21): 8562. doi: 10.3390/S22218562
[177] 何兆一, 刘海颖, 黄魁华, 等. 面向联合全域作战的海上无人集群协同防御行动策略设计[J]. 指挥与控制学报, 2022, 8(1): 44–49. doi: 10.3969/j.issn.2096-0204.2022.01.0044 HE Z Y, LIU H Y, HUANG K H, et al. Strategy design of maritime unmanned cluster cooperative defense for joint all-domain operations[J]. Journal of Command and Control, 2022, 8(1): 44–49 (in Chinese). doi: 10.3969/j.issn.2096-0204.2022.01.0044
[178] LEE K, AHN K, PARK J. End-to-end control of USV swarm using graph centric multi-agent reinforcement Learning[C]//Proceedings of the 21st International Conference on Control, Automation and Systems (ICCAS). Jeju: IEEE, 2021: 925−929. doi: 10.23919/ICCAS52745.2021.9649839.
[179] FANG Z, CHEN T H, SHEN T, et al. Multi-agent generative adversarial interactive self-imitation learning for AUV formation control and obstacle avoidance[J]. IEEE Robotics and Automation Letters, 2025, 10(5): 4356–4363. doi: 10.1109/LRA.2025.3550743
[180] 肖友刚, 金升成, 毛晓, 等. 基于深度强化学习的舰船导弹目标分配方法[J]. 控制理论与应用, 2024, 41(6): 990–998. doi: 10.7641/CTA.2023.20696 XIAO Y G, JIN S C, MAO X, et al. Missile-target assignment method of naval ship based on deep reinforcement learning[J]. Control Theory & Applications, 2024, 41(6): 990–998 (in Chinese). doi: 10.7641/CTA.2023.20696
[181] 杨清清, 高盈盈, 郭玙, 等. 基于深度强化学习的海战场目标搜寻路径规划[J]. 系统工程与电子技术, 2022, 44(11): 3486–3495. doi: 10.12305/j.issn.1001-506X.2022.11.24 YANG Q Q, GAO Y Y, GUO Y, et al. Target search path planning for naval battle field based on deep reinforcement learning[J]. Systems Engineering & Electronics, 2022, 44(11): 3486–3495 (in Chinese). doi: 10.12305/j.issn.1001-506X.2022.11.24
[182] LI J, JI L H, ZHANG C J, et al. Optimal couple-group tracking control for the heterogeneous multi-agent systems with cooperative-competitive interactions via reinforcement learning method[J]. Information Sciences, 2022, 610: 401–424. doi: 10.1016/j.ins.2022.07.181
[183] SAALFELD A. Topologically consistent line simplification with the Douglas-Peucker algorithm[J]. Cartography and Geographic Information Science, 1999, 26(1): 7–18. doi: 10.1559/152304099782424901
[184] WANG Z, WEN Z W, XIA Q X, et al. Deep reinforcement learning based multi-UUV cooperative control for target capturing[C]//Proceedings of the 2022 IEEE International Conference on Dependable, Autonomic and Secure Computing, International Conference on Pervasive Intelligence and Computing, International Conference on Cloud and Big Data Computing, International Conference on Cyber Science and Technology Congress (DASC/PiCom/CBDCom/CyberSciTech). Falerna: IEEE, 2022: 1−6. doi: 10.1109/DASC/PiCom/CBDCom/Cy55231.2022.9927810.
[185] FANG Z, JIANG D, HUANG J, et al. Autonomous underwater vehicle formation control and obstacle avoidance using multi-agent generative adversarial imitation learning[J]. Ocean Engineering, 2022, 262: 112182. doi: 10.1016/j.oceaneng.2022.112182
[186] 黄凯奇, 兴军亮, 张俊格, 等. 人机对抗智能技术[J]. 中国科学: 信息科学, 2020, 50(4): 540–550. doi: 10.1360/N112019-00048 HUANG K Q, XING J L, ZHANG J G, et al. Intelligent technologies of human-computer gaming[J]. Scientia Sinica (Informationis), 2020, 50(4): 540–550 (in Chinese). doi: 10.1360/N112019-00048
[187] GEBRU B, ZELEKE L, BLANKSON D, et al. A review on human–machine trust evaluation: Human-centric and machine-centric perspectives[J]. IEEE Transactions on Human-Machine Systems, 2022, 52(5): 952–962. doi: 10.1109/THMS.2022.3144956
[188] SAIDI-MEHRABAD M, ATASHFESHAN N, RAZAVI H. Reliability optimization model in man‐machine systems considering human factors in uncertain situations[J]. Quality and Reliability Engineering International, 2023, 39(7): 3140–3156. doi: 10.1002/qre.3422
[189] HAESEVOETS T, DE CREMER D, DIERCKX K, et al. Human-machine collaboration in managerial decision making[J]. Computers in Human Behavior, 2021, 119: 106730. doi: 10.1016/j.chb.2021.106730
[190] VERMA A, MURALI V, SINGH R, et al. Programmatically interpretable reinforcement learning[C]//Proceedings of the 35th International Conference on Machine Learning. Stockholm: ICML, 2018: 5052−5061.
[191] GLANOIS C, WENG P, ZIMMER M, et al. A survey on interpretable reinforcement learning[J]. Machine Learning, 2024, 113(8): 5847–5890. doi: 10.1007/s10994-024-06543-w
[192] 化盈盈, 张岱墀, 葛仕明. 深度学习模型可解释性的研究进展[J]. 信息安全学报, 2020, 5(3): 1–12. doi: 10.19363/J.cnki.cn10-1380/tn.2020.05.01 HUA Y Y, ZHANG D C, GE S M. Research progress in the interpretability of deep learning models[J]. Journal of Cyber Security, 2020, 5(3): 1–12 (in Chinese). doi: 10.19363/J.cnki.cn10-1380/tn.2020.05.01
[193] BURKHARD R A. Strategy visualization: A new research focus in knowledge visualization and a case study[C]//Proceedings of the I-Know ’05. Graz: 2005: 527−534. (查阅网上资料, 未找到对应的出版者信息, 请确认补充)
[194] EPPLER M J, PLATTS K W. Visual strategizing: the systematic use of visualization in the strategic-planning process[J]. Long Range Planning, 2009, 42(1): 42–74. doi: 10.1016/j.lrp.2008.11.005
[195] GUAN S P, CHENG X Q, BAI L, et al. What is event knowledge graph: a survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2023, 35(7): 7569–7589. doi: 10.1109/TKDE.2022.3180362
[196] WEI J, WANG X Z, SCHUURMANS D, et al. Chain-of-thought prompting elicits reasoning in large language models[C]//Proceedings of the 36th International Conference on Neural Information Processing Systems. New Orleans: ACM, 2022: 1800.
[197] KASNECI E, SESSLER K, KÜCHEMANN S, et al. ChatGPT for good? On opportunities and challenges of large language models for education[J]. Learning and Individual Differences, 2023, 103: 102274. doi: 10.1016/j.lindif.2023.102274
[198] CHIANG C W, LU Z R, LI Z Y, et al. Enhancing AI-assisted group decision making through LLM-powered devil's advocate[C]//Proceedings of the 29th International Conference on Intelligent User Interfaces. Greenville: ACM, 2024: 103−119. doi: 10.1145/3640543.3645199.
[199] AGRAWAL A, KEDIA N, MOHAN J, et al. VIDUR: a large-scale simulation framework for LLM inference[C]//Proceedings of the 7th Annual Conference on Machine Learning and Systems. Santa Clara: MLSys, 2024 : 351−366.
[200] CHEN Z C, CHEN J D, GAIDHANI M, et al. XplainLLM: a QA explanation dataset for understanding LLM decision-making[J]. arXiv: 2311.08614, 2023. doi: 10.48550/arXiv.2311.08614. (查阅网上资料,不确定文献类型及格式是否正确,请确认)
[201] CHENG P Y, HU T H, XU H, et al. Self-playing adversarial language game enhances LLM reasoning[C]//Proceedings of the 38th International Conference on Neural Information Processing Systems. Vancouver: ACM, 2024: 4019.
[202] LIU Z M, LIU K J, GUO M Y, et al. CoTuning: a large-small model collaborating distillation framework for better model generalization[C]//Proceedings of the 32nd ACM International Conference on Multimedia. Melbourne: ACM, 2024: 10487−10496. doi: 10.1145/3664647.3681462.
[203] ZHANG J, SHU J M, ZHANG Y H, et al. AutoRG: An automatic report generation framework for Large and small model collaboration[C]//Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference). Taiyuan: ACL, 2024: 539−552.
[204] 王永威, 沈弢, 张圣宇, 等. 大小模型端云协同进化技术进展[J]. 中国图象图形学报, 2024, 29(6): 1510–1534. doi: 10.11834/jig.240011 WANG Y W, SHEN T, ZHANG S Y, et al. Advances in edge-cloud collaboration and evolution for large-small models[J]. Journal of Image and Graphics, 2024, 29(6): 1510–1534 (in Chinese). doi: 10.11834/jig.240011
[205] CHANG Y P, WANG X, WANG J D, et al. A survey on evaluation of large language models[J]. ACM Transactions on Intelligent Systems and Technology, 2024, 15(3): 39. doi: 10.1145/3641289
[206] HOU X Y, ZHAO Y J, WANG H Y. The next frontier of LLM applications: open ecosystems and hardware synergy[J]. arXiv: 2503.04596, 2025. doi: 10.48550/arXiv.2503.04596. (查阅网上资料,不确定文献类型及格式是否正确,请确认)
[207] HOU X Y, ZHAO Y J, WANG S A, et al. Model context protocol (MCP): landscape, security threats, and future research directions[J]. arXiv: 2503.23278, 2025. doi: 10.48550/arXiv.2503.23278. (查阅网上资料,不确定文献类型及格式是否正确,请确认)
[208] GHOSH D P. Agentic ecosystemin engineering design: a framework for interoperable legacy tools and emergent collaboration via MCP/A2A Protocols[J]. (查阅网上资料, 未找到本条文献信息, 请确认)
[209] 李艺春, 刘泽娇, 洪艺天, 等. 基于多智能体强化学习的博弈综述[J]. 自动化学报, 2025, 51(3): 540–558. doi: 10.16383/j.aas.c240478 LI Y C, LIU Z J, HONG Y T, et al. Multi-agent reinforcement learning based game: a survey[J]. Acta Automatica Sinica, 2025, 51(3): 540–558 (in Chinese). doi: 10.16383/j.aas.c240478
[210] 程恺, 张金鹏, 邵天浩, 等. 智能博弈领域中的对手建模方法综述[J]. 计算机技术与发展, 2025: 1−9. doi: 10.20165/j.cnki.ISSN1673-629X.2025.0082. CHENG K, ZHANG J P, SHAO T H, et al. Survey on opponent modeling methods in intelligent gaming[J]. Computer Technology and Development, 2025: 1−9. doi: 10.20165/j.cnki.ISSN1673-629X.2025.0082 (in Chinese).