Processing math: 32%

基于DDPG算法的游船航行避碰路径规划

周怡, 袁传平, 谢海成, 羊箭锋

周怡, 袁传平, 谢海成, 等. 基于DDPG算法的游船航行避碰路径规划[J]. 中国舰船研究, 2021, 16(6): 19–26, 60. DOI: 10.19693/j.issn.1673-3185.02057
引用本文: 周怡, 袁传平, 谢海成, 等. 基于DDPG算法的游船航行避碰路径规划[J]. 中国舰船研究, 2021, 16(6): 19–26, 60. DOI: 10.19693/j.issn.1673-3185.02057
ZHOU Y, YUAN C P, XIE H C, et al. Collision avoidance path planning of tourist ship based on DDPG algorithm[J]. Chinese Journal of Ship Research, 2021, 16(6): 19–26, 60. DOI: 10.19693/j.issn.1673-3185.02057
Citation: ZHOU Y, YUAN C P, XIE H C, et al. Collision avoidance path planning of tourist ship based on DDPG algorithm[J]. Chinese Journal of Ship Research, 2021, 16(6): 19–26, 60. DOI: 10.19693/j.issn.1673-3185.02057
周怡, 袁传平, 谢海成, 等. 基于DDPG算法的游船航行避碰路径规划[J]. 中国舰船研究, 2021, 16(6): 19–26, 60. CSTR: 32390.14.j.issn.1673-3185.02057
引用本文: 周怡, 袁传平, 谢海成, 等. 基于DDPG算法的游船航行避碰路径规划[J]. 中国舰船研究, 2021, 16(6): 19–26, 60. CSTR: 32390.14.j.issn.1673-3185.02057
ZHOU Y, YUAN C P, XIE H C, et al. Collision avoidance path planning of tourist ship based on DDPG algorithm[J]. Chinese Journal of Ship Research, 2021, 16(6): 19–26, 60. CSTR: 32390.14.j.issn.1673-3185.02057
Citation: ZHOU Y, YUAN C P, XIE H C, et al. Collision avoidance path planning of tourist ship based on DDPG algorithm[J]. Chinese Journal of Ship Research, 2021, 16(6): 19–26, 60. CSTR: 32390.14.j.issn.1673-3185.02057

基于DDPG算法的游船航行避碰路径规划

基金项目: 国家自然科学基金资助项目(61631004)
详细信息
    作者简介:

    周怡,女,1980年生,硕士,实验师。研究方向:信号与信息处理。E-mail:yzhou80@suda.edu.cn

    袁传平,男,1995年生,硕士生。研究方向:电子与通信工程。E-mail:1213110222@qq.com

    谢海成,男,1990年生,科研助理。研究方向:信号与信息处理。E-mail:14919380932@qq.com

    羊箭锋,男,1978年生,博士,高级实验师。研究方向:信号与信息处理。E-mail:jfyang@suda.edu.cn

    通讯作者:

    羊箭锋

  • 中图分类号: U664.82

Collision avoidance path planning of tourist ship based on DDPG algorithm

知识共享许可协议
基于DDPG算法的游船航行避碰路径规划周怡,采用知识共享署名4.0国际许可协议进行许可。
  • 摘要:
      目的  作为船舶航行安全的核心问题,若船舶避碰完全依赖船长的个人状态和判断将存在一定的安全隐患。为了统筹关键水域上所有船舶(游船、货船等)并进行路径预测,需要建立防碰撞预警机制。
      方法  利用深度确定性策略梯度(DDPG)算法和船舶领域模型,采用电子海图模拟船舶的航行路径,提出基于失败区域重点学习的DDPG算法改进策略,并针对游船特点改进的船舶领域模型参数等改进方法,提高航线预测和防碰撞准确率。
      结果  使用改进的DDPG算法和改进的船舶领域模型,与未改进前的算法相比,船舶避碰正确率由84.9%升至89.7%,模拟航线与真实航线的平均误差由25.2 m降至21.4 m。
      结论  通过基于改进的DDPG算法和改进的船舶领域模型开展船舶避碰路径规划,可以实现水域船舶航线监管功能,且当预测航线与其他船舶存在交会时,告警调度人员,从而实现防碰撞预警机制。
    Abstract:
      Objective  Sailling saftey is the chief matter for ship navigation, supposing that collision avoidance operation is heavily dependent on the captain's performance or judgement, it would pose potential risks to the ship safety. In order to coordinate all ships (tourist ships, cargo ships, etc.) in key waters and predict their routes, it is necessary to establish an anti-collision mechanism.
      Methods  Using the deep deterministic policy gradient (DDPG) algorithm and the Fujii's ship domain model, an electronic chart is used to simulate the ship's navigation route, and an improved strategy for the DDPG algorithm based on the key learning of failure regions and the improved parameters of the ship domain model according to the characteristics of tourist ships are proposed, so as to enhance the accuracy of route prediction and anti-collision.
      Results  Using the improved DDPG algorithm and ship domain model, compared with the previous algorithm, the accuracy of ship collision avoidance is raised from 84.9% to 89.7%, and the average error between the simulated and real route is reduced from 25.2 m to 21.4 m.
      Conclusion  Through the proposed ship collision avoidance path planning based on the improved DDPG algorithm and ship domain model, the supervision function of ship routes in water areas can be realized; when the predicted route intersects with other ships, the dispatcher will be alerted, realizing an effective anti-collision early warning mechanism.
  • 本文主要研究周庄水域的船舶航行安全。由于该水域急水港航道由4级升为3级,通行的各类货船无论是数量还是吨位都有明显的增加,而游船进出港穿越航道并与货船共线航行会增加游船的碰撞风险,人为驾驶因素也会引发碰撞事故,进而造成严重的经济损失和人员伤亡[1-2]。因此,开展船舶避碰研究,对推动水运行业安全发展具有积极意义。

    现有的船舶避碰算法,例如遗传算法[3-4]、粒子群算法以及蚁群算法[5-6]等,都存在实时性差的问题,因为无法预先从样本数据中建立模型,所以在应用过程中需要重复进行路径优化搜索过程,造成大量无用的计算,且其依赖的评价函数较简单,在不同水域应用环境下的鲁棒性较差。所以,船舶避碰算法需能够从大量经验数据中学习避碰策略,同时保证在未知环境下依然可以保证避碰策略的准确性[7-10]。DDPG算法具有多维特征提取能力,能从大量样本中学习避碰模型及评价函数,而且具备良好的泛化应用能力[11-14],其采用的DQN(deep Q network)算法可根据不同应用环境选择合适的避碰策略[15-16],较现有的避碰算法有明显的优势。但DDPG训练收敛速度慢[17],训练过程所采用的经验池随机采样方式一定程度上降低了有效样本数据的利用率。针对此问题,陈希亮等[18]优化了优先缓存经验回放机制,提高了有效数据在学习时被选中的概率,提升了算法的学习效率。但上述对经验池回放机制的改进大都集中在提高样本的利用率方面,而忽略了智能体盲目探索时造成有效数据不足的问题。

    鉴于以上存在的不足之处,本文将提出基于失败区域重点学习的DDPG算法改进策略,在训练过程中的失败区域扩大探索的随机性,有针对性地收集该区域的学习样本,提高避碰学习效率。同时,提出根据游船特征改进的船舶领域模型参数等方法,保障领域模型的正确性,进一步提高路径预测的准确性。

    船舶领域模型被广泛应用于船舶的避碰分析中。上世纪60~70年代,Fujii等[19-20]提出了船舶领域的概念,将其定义为“绝大部分后续船舶驾驶人员避免侵入前一艘船舶周围的领域”。

    我国内河流域水道狭窄弯曲,藤井(Fujii)提出的狭窄水域船舶领域模型对内河货船有着较好的适用性。本文的研究内容主要应用于周庄客货混合航道,航道长约1.5 km,宽约130 m。周庄水域中货船平均长宽为43和7 m,游船平均长宽为24和6 m(图1)。由于游船与货船在长宽比、尺度以及驾驶规范方面存在的差异,藤井狭窄船舶领域模型难以准确适用于游船。

    图  1  货船、游船尺度对比
    Figure  1.  Comparison of cargo ship and tourist ship

    为进一步提高游船避碰路径规划的精度,本文在藤井狭窄船舶领域模型的基础上采用数据统计方式建立了游船的船舶领域改进模型。传统的数据统计主要依赖于船舶自动识别(AIS)系统,AIS系统虽能提供大量的船舶数据,但也存在覆盖率不足的问题,例如在游船水域存在大量未安装AIS系统的渔船。为提高船舶领域的精度,本文采用AIS与激光测距相结合的方式改进游船的船舶领域模型。以游船为参考坐标系,图2(a)所示为由AIS获取的周围船舶航行轨迹及确定的相对分布关系,图2(b)所示为运用激光测距方法对周围船舶进行方位角及距离测量及确定的相对分布关系。通过以上2种方法,收集得到大量游船的船舶领域周围船舶的真实分布数据。图3所示为游船船舶领域的建立过程图。其中,左侧图为游船的船舶分布数据叠加图,图中黑点为通过AIS获取的船舶分布信息,红色三角形为通过观察法获取的船舶分布信息;右侧图显示了通过最大密度法确定的游船船舶领域边界,图中蓝色点为游船周围船舶的分布边界,由其确定的椭圆区域为游船的船舶领域范围,椭圆船舶领域的长半轴为60.3 m,短半轴为25.2 m。

    图  2  不同方法计算的船舶领域
    Figure  2.  The ship domain calculated by different methods
    图  3  游船船舶领域建立过程
    Figure  3.  Establishment process of a tourist ship domain

    藤井狭窄水域船舶领域的长轴为船长的6倍,短轴为船长的1.6倍,如图4所示,基于藤井模型的游船领域长轴为144 m,短轴为38.4 m,相较于传统藤井船舶领域模型,改进后的游船领域模型长轴更短,长宽比更小,体现出游船惯性小、驾驶更加灵活的特性,所以基于最大密度法改进的游船领域模型更符合游船航行的特征。

    图  4  修正后的船舶领域对比
    Figure  4.  The comparison of Fujii model and revised model

    DDPG是基于Actor-Critic框架的深度确定性策略梯度(deep deterministic policy gradient)算法,其可有效解决复杂物理系统的控制和决策问题。如图5所示,强化学习智能体与系统环境交互的过程中,智能体根据当前状态st和环境奖励值rt选择下一步动作at,达到新的状态st+1以及获取环境奖励值rt+1;而智能体根据当前状态,以最大化奖励期望值为目标,在与实际环境交互过程中不断学习并改进动作策略,其中DDPG使用深度神经网络拟合策略和价值函数,运用经验回放和目标网络技术提高算法的收敛性与稳定性。

    图  5  强化学习决策过程中智能体与环境交互
    Figure  5.  The interaction between the agent and the environment in the reinforcement learning decision process

    本文的防碰撞系统通过AIS系统实时读取水域内所有船舶的真实经纬度信息,并同步到电子海图中。游船智能体依据当前周围船舶的分布及航道走向、长宽等信息来规划航线。当游船智能体规划的未来航线不可避免地与其他船舶发生碰撞时,防碰撞系统将给出告警提示,指挥中心调度员将对目标船舶进行紧急调度,通过预测航线实现船舶碰撞提前预警、紧急调度的功能,从而进一步保障游船的航行安全。本文模拟的船舶智能体主要通过DDPG算法对周围水域环境数据进行处理,输出船舶未来最佳行驶路径。如图6所示,DDPG算法的设计主要包括在船舶避碰路径规划过程中的状态设计、船舶动作设计和所获奖励值的设计。

    图  6  DDPG算法设计框图
    Figure  6.  Block diagram of DDPG algorithm design

    1)DDPG算法的状态设计。

    强化学习中智能体在决策时需要参考当前智能体自身状态及环境因素。船舶要从当前位置驶向目标点,避碰算法模型需考虑船舶当前的位置、速度、航向、目标点位置以及与周围障碍物之间的距离和方位等信息。

    在船舶避碰仿真环境中,船舶的位置、速度及航向通过AIS系统获得;目标点位置的选取依赖于航行水域的环境信息;对于障碍物和其他船的船舶方位、距离等信息,采用模拟雷达的方式扫描周围环境获得。图7所示为模拟雷达的扫描障碍物图。图中,白色区域为水域,灰色区域为陆地,蓝色三角形为船舶,蓝色三角形附近椭圆区域为船舶领域范围。

    图  7  船舶模拟雷达扫描障碍物
    Figure  7.  Scanning obstacles of ship simulation radar

    2)DDPG算法的动作设计。

    在航行过程中遇到其他船舶或障碍物时,驾驶员通常采取改变航向的方式以避碰。船舶需要在舵的控制下才能改变航向。本文在仿真环境中设定船舶单位时间航向变化量在θ+θ之间。通过对船舶进行直角转弯过程的实测数据分析,航向角变化约为1°/s。因此,本文将θ设置为1°,使船舶智能体的转向输出更贴近实际情况。

    3)DDPG算法的奖励值设计。

    船舶避碰路径规划过程可以分为2个部分:一是船舶周围无危险障碍物时驶向目标点;二是船舶存在碰撞危险时进行避碰路径规划。本文使用的DDPG算法的奖励函数设计分别围绕以上内容展开。

    图8所示为船舶在无碰撞危险时驶向目标点的学习过程。本文通过比较船舶与航标点形成的角度θ1和船舶航向θ2来设置奖励函数。

    图  8  船舶与航标点位置图
    Figure  8.  Map of ships and navigation points

    船舶航向θ2可以通过AIS系统获得,船舶与航标点形成的角度θ1可以通过船舶和目标点的相对位置获得。本文设定θ2θ1的偏差为

    Δθ={|θ1θ2|,|θ1θ2| (1)

    船舶驶向航标点任务的奖励函数设置为 {r}_{1} 。经过对大量船舶偏航角的记录统计,发现在该水域正常船舶的偏航角在20°以内。据此,本文设定的偏航角小于20°将给出正奖励值,偏航角大于20°将给出负奖励值。设置船舶 {r}_{1} 的值如式(2)所示:

    {r}_{1}=1-\Delta \theta /20 (2)

    图9所示为船舶完成避碰任务的学习过程。本文通过对模拟雷达扫描获得的测量距离与本船船舶领域的范围进行比较来设计奖励函数,且适应不同的船舶领域模型。图中,线0~17为虚拟雷达探测线。

    图  9  模拟雷达与船舶领域的范围图
    Figure  9.  Range map of simulated radar and ship domain

    奖励函数 {r}_{2}\mathrm{根}\mathrm{据}\mathrm{船}\mathrm{舶}\mathrm{领}\mathrm{域}\mathrm{范}\mathrm{围}\mathrm{设}\mathrm{置} ,表达式如式(3)所示:

    {r}_{2}=\left\{ \begin{aligned} & 1\text{,} \;\;{\rm if}\;{d}_{i} \geqslant {D}_{i}\\& {R}_{1}\text{,} {\rm if}\;{d}_{i} < {D}_{i}\\& {R}_{2}\text{,} {\rm if}\;{\rm{min}}\left({d}_{0},{d}_{1},\cdots ,{d}_{17}\right)=0 \end{aligned} \right. (3)

    式中: {d}_{i} 图9中模拟雷达线第i条线扫描到障碍物距本船的距离; {D}_{i} 为第i条模拟雷达扫描线与船舶领域的交点距船中心的距离; {R}_{1} 为静态障碍物或他船船舶领域侵入本船船舶领域获得的奖励值。本文设置{R}_{1}=-5+2\mathrm{m}\mathrm{i}\mathrm{n}\left({{d}_{i}}/{{D}_{i}}\right),{R}_{2}为船舶发生碰撞时的奖励值, {R}_{2}=-50 。当发生碰撞时,本回合结束;当无障碍物进入本船船舶领域时,奖励值为0。

    (1)当静态障碍物或其他船舶距离本船舶超过2倍船舶领域距离时,代表航行安全,设置奖励值为1。

    (2)当静态障碍物或他船舶距离小于2倍船舶领域但大于1倍船舶领域时,表示航行较为安全,将给出正奖励值,但随着距离变短,正奖励值应逐渐减小;当静态障碍物或他船舶侵入本船船舶领域时,代表航行存在风险,将给出负奖励值,且随着距离变短,负奖励值应逐渐变大,所以设置R_1=-1+\min (d_i/D_i )

    (3)当静态障碍物或他船舶距离等于0时,代表该与本船舶边缘发生接触,即发生碰撞,设置R_2=-50

    由上述的奖励函数设置,再结合对船舶避碰状态的设计,可构建用于DDPG训练的状态 s 。状态s为{Type , v ,{\theta }_{1}-{\theta }_{2}, L,{d}_{0},{d}_{1},\cdots ,{d}_{17}}。其中:Type为训练船舶的类型,当Type为0时,表示训练船舶为货船;当Type为1时,表示训练船舶为游船:v为本船船速; {\theta }_{1}-{\theta }_{2} 为航向偏差:L为本船船长: {d}_{0}, {d}_{1},\cdots ,{d}_{17} 为模拟雷达扫描到障碍物距本船的距离。

    受人类学习过程的启发,针对智能体盲目探索时造成有效数据不足的问题,有学者提出了失败区域重点学习方法,该方法有以下几个要点:

    1)失败区域的反复试错学习。

    前期DDPG探索中,通过在行为的确定性策略上添加高斯噪声来使算法实现探索的随机性,如式(4)所示:

    {{a}}_{\rm t}'={{a}}_{\rm t}+EN (4)

    式中:{a}_{\rm t}为转向输出; EN 为探索随机因子;{a}_{\rm t}'为具备随机探索性的转向输出。为了更好地得到高质量的训练数据,在DDPG训练过程中添加探索噪声为小幅度噪声,本文所采用的探索噪声如式(5)所示:

    EN \sim N(\mu =0\text{,}\delta =0.5) (5)

    式中,N为随机探索噪声的概率密度函数,其中μ为随机探索噪声高斯分布的期望,δ为方差。

    然而,实验显示DDPG算法在失败区域通常反复触发训练结束条件,使得无法获取有效的正样本数据。而且,因网络参数更新的局限性和随机探索幅度小,导致无法跳出失败区域,导致训练停滞。

    为提高算法的学习效率,本文在失败区域提高了探索的随机性。在探索过程中,若某个区域重复触发训练结束条件,则增加该区域探索随机性的幅度。鉴于本文采取的动作区间为(−1°,1°), 为加大随机探索幅度,将新的探索噪声设计为混合高斯模型,如式(6)所示:

    EN \sim 0.5(N\left(-\mathrm{1,0}.5\right)+N\left(\mathrm{1,0}.5\right)) (6)

    图10所示,与原噪声相比,混合高斯随机探索幅度区间从[−0.5, 0.5]区间向两侧偏移到[−1.5, −0.5]和[0.5, 1.5],提高随机探索幅度,以加快跳出失败区域,从而获得充足的正样本数据。图中, x 表示随机探索幅度,p \left(x\right)表示随机探索幅度 x 的概率密度,

    图  10  不同区域探索噪声
    Figure  10.  Explore noise for failure areas

    在智能体跳出失败区域后,再继续对失败区域进行多次重复探索学习,以积累大量关键节点的成功和失败数据,以及增加经验池中该区域数据的多样性,保持在失败区域正、负样本数量的平衡,进而提高该区域的学习速度。图11为失败区域反复探索学习框图。

    图  11  失败区域反复探索学习框图
    Figure  11.  Block diagram of repeated exploration and learning of failure areas

    当智能体触碰即训练结束条件时,智能体将回退到前k步位置,在本文中根据船舶智能体行驶步进长度等参数设置k值为300,等效于回退5倍个船舶领域长度。智能体从回退的位置开始,进行失败区域反复试错学习过程,且采用幅度更大的随机探索策略以积累丰富的试错经验,并对此过程产生的数据建立单独的经验池,实现具有针对性的网络参数调整,加快失败区域策略的学习速度。

    2)经验池分类。

    为进一步增强算法对学习样本中有用数据的利用效率,本文采用了经验池分类的方法将主经验池A的样本数据分为2类:常规样本经验池和重点区域样本经验池。其中,常规样本经验池为正常探索时获得的样本数据,重点区域样本经验池为单独经验池B复制过来的反复试错的样本数据。图12所示为经验池分类采样图。

    图  12  经验池分类采样图
    Figure  12.  Sample map of experience pool classification

    船舶在航行中会存在与其他船舶航线会遇的情况,这会增加碰撞风险。本文通过DDPG算法建立船舶会遇避碰路径规划模型,实现了船舶在会遇时的避碰路径规划,从而可以保障船舶航行安全。

    船舶的会遇态势主要分为3种情况:追越、会遇和交叉相遇。船舶会遇态势图如图13所示。

    图  13  船舶会遇态势图
    Figure  13.  Illustration of ship encountering scenerio

    本文的主要应用环境多为狭窄水域,在狭窄水域中会遇和追越的会遇情景居多,故本节主要展示在狭窄水域中船舶会遇和追越的仿真结果。

    图14为在水域中船舶会遇、追越、交叉相遇情况下的仿真图,图中的仿真环境建立在16级瓦片地图上。图中,蓝船为仿真船舶,黑船为模拟的会遇船舶,虚线表示航线轨迹,船舶虚影表示其他时刻船舶位置。本次实验为蓝船在会遇、追越、交叉相遇情景下的路径规划,图中数字代表不同时间点,其中1为开始时间点。

    图  14  船舶避碰路径规划仿真结果
    Figure  14.  Simulation results of ship collision avoidance path planning

    图14(a)可知,在狭窄水域仿真环境中,船舶智能体可在追越他船的过程中实现避碰路径规划。图中,船舶智能体在时间点1和2之间开始转向避碰;在时间点3~5时与他船在不同航道中并向航行;在时间点6开始驶回原航道,完成追越情况下的路径规划。在时间点2,智能体与他船相距3.24倍船舶领域长半轴距离;在时间点4,智能体与他船舶相距1.35倍船舶领域短半轴距离,未发生侵入船舶领域的情况,追越避碰路径规划符合船舶航行安全要求。由图14(b)可知,在会遇情况下,船舶智能体在会遇的其他船舶未改变航向的情况下进行避碰路径规划。图中,船舶智能体在时间点1~2就开始右转避碰,在2时间点避碰完成后开始驶向航标点,实现对遇情况下的避碰路径规划。在时间点1,智能体与他船相距3.85倍船舶领域长半轴距离;在时间点2,智能体与他船舶相距1.12倍船舶领域短半轴距离,未发生侵入船舶领域的情况,对遇避碰路径规划符合船舶航行安全要求。由图14(c)可知,在交叉情况下,当船舶智能体在时间点3~4时,船舶智能体开始右转避碰;在时间点5时,船舶智能体开始转向并驶向目标点,完成在交叉情况下的船舶避碰路径规划。在时间点3,智能体与他船相距2.68倍船舶领域长半轴距离;在时间点4,智能体与他船舶相距1.45倍船舶领域短半轴距离,未发生侵入船舶领域的情况,交叉避碰路径规划符合船舶航行安全要求。

    为验证改进算法的有效性,本文分别从学习速率和学习效果这两个方面对原始算法和改进算法进行比较。其中,对学习速率的比较主要依据计算达到相同正确率的训练迭代次数;对学习效果的比较主要通过每步平均奖励值,每步平均奖励值越大表示学习效果越好。

    图15所示为不同会遇情景下船舶避碰的成功率比较,图中,成功率表示的是每10 000次样本学习后在无噪声条件下测试的成功率。

    图  15  不同会遇情景下船舶避碰成功率图
    Figure  15.  The success rate of ship collision avoidance under different encounter scenarios

    图15(a),原始DDPG算法经过14万步学习后才成功学会在不同会遇情景下的船舶避碰;由图15(b),改进DDPG算法在12万步时完全学会避碰策略。改进算法学习速度快于原始算法。

    图16所示为每步平均奖励值的对比,从图中可以看出,在算法未完全学会避碰策略时,算法的每步平均奖励值随着训练步数的增加而增大;当算法已基本学会避碰策略时,算法的每步平均奖励值趋于稳定。对比改进DDPG算法与原始DDPG算法每步平均奖励值,容易看出,稳定后的改进算法的每步平均奖励值大于原始算法,即改进算法学习效果优于原始DDPG算法。

    图  16  算法的每步平均奖励值对比
    Figure  16.  Comparison of the average reward value of each step of the algorithm

    图15图16可知,改进算法无论是学习速率还是学习效果都优于原始算法。表1为原始算法与改进算法的仿真数据和真实数据对比。

    表  1  原始与改进DDPG算法的仿真数据对比
    Table  1.  Comparison of simulation data between original and improved DDPG algorithms
    算法对比
    次数
    /次
    碰撞
    次数
    /次
    碰撞率
    /%
    转向正确
    次数
    /次
    转向
    正确率
    /%
    航迹点
    平均距离
    偏差/m
    原始算法
    1 0000084984.925.2
    改进算法
    1 0000089789.721.4
    下载: 导出CSV 
    | 显示表格

    表1可知,两种算法都能实现避碰路径规划,但相较于原始算法,改进算法的转向正确率提高了4.8%,航迹点的平均距离偏差降低了15.1%。图17所示为两种算法预测路径的对比。由图中可知,改进算法规划的避碰路径更接近于真实的避碰路径,符合一般船舶避碰路径规划场景的要求。

    图  17  原始算法与改进DDPG算法预测路径对比
    Figure  17.  Comparison of prediction path between original and improved DDPG algorithm

    本文将深度强化学习的DDPG算法与船舶领域模型相结合,利用改进的游船船舶领域模型,提出了基于失败区域重点学习的DDPG算法改进策略。通过仿真实验表明,基于失败区域重点学习的改进DDPG算法无论是在学习速率,还是在学习效果方面都优于原始的DDPG算法。通过对改进的算法预测路径与真实航迹的比较,结果显示,改进算法获得的航迹点平均距离偏差降低了15.1%,转向正确率提高了4.8%。将改进DDPG算法和游船船舶领域模型运用于周庄水域,实现了对游船的避碰路径规划,验证了改进算法在真实水域环境下的可行性。

  • 图  1   货船、游船尺度对比

    Figure  1.   Comparison of cargo ship and tourist ship

    图  2   不同方法计算的船舶领域

    Figure  2.   The ship domain calculated by different methods

    图  3   游船船舶领域建立过程

    Figure  3.   Establishment process of a tourist ship domain

    图  4   修正后的船舶领域对比

    Figure  4.   The comparison of Fujii model and revised model

    图  5   强化学习决策过程中智能体与环境交互

    Figure  5.   The interaction between the agent and the environment in the reinforcement learning decision process

    图  6   DDPG算法设计框图

    Figure  6.   Block diagram of DDPG algorithm design

    图  7   船舶模拟雷达扫描障碍物

    Figure  7.   Scanning obstacles of ship simulation radar

    图  8   船舶与航标点位置图

    Figure  8.   Map of ships and navigation points

    图  9   模拟雷达与船舶领域的范围图

    Figure  9.   Range map of simulated radar and ship domain

    图  10   不同区域探索噪声

    Figure  10.   Explore noise for failure areas

    图  11   失败区域反复探索学习框图

    Figure  11.   Block diagram of repeated exploration and learning of failure areas

    图  12   经验池分类采样图

    Figure  12.   Sample map of experience pool classification

    图  13   船舶会遇态势图

    Figure  13.   Illustration of ship encountering scenerio

    图  14   船舶避碰路径规划仿真结果

    Figure  14.   Simulation results of ship collision avoidance path planning

    图  15   不同会遇情景下船舶避碰成功率图

    Figure  15.   The success rate of ship collision avoidance under different encounter scenarios

    图  16   算法的每步平均奖励值对比

    Figure  16.   Comparison of the average reward value of each step of the algorithm

    图  17   原始算法与改进DDPG算法预测路径对比

    Figure  17.   Comparison of prediction path between original and improved DDPG algorithm

    表  1   原始与改进DDPG算法的仿真数据对比

    Table  1   Comparison of simulation data between original and improved DDPG algorithms

    算法对比
    次数
    /次
    碰撞
    次数
    /次
    碰撞率
    /%
    转向正确
    次数
    /次
    转向
    正确率
    /%
    航迹点
    平均距离
    偏差/m
    原始算法
    1 0000084984.925.2
    改进算法
    1 0000089789.721.4
    下载: 导出CSV
  • [1] 吴飞, 李志特. 新时期中国内河航运发展问题分析[J]. 珠江水运, 2020(15): 87–88.

    WU F, LI Z T. Analysis of the sustainable development of China's inland river in the new era[J]. Pearl River Water Transport, 2020(15): 87–88 (in Chinese).

    [2] 童霖. 内河船舶避碰事故调查处理要点[C]//中国航海学会内河船舶驾驶专业委员会桥区船舶航行安全与管理学术会议论文集. 珠海: 中国航海学会, 2010: 3.

    TONG L. Key points of investigation and handling of inland watercraft collision avoidance accidents[C]//Papers on Navigation Safety and Management in Bridge Area (1). Zhuhai: China Nautical Society, 2010: 3 (in Chinese).

    [3] 倪生科, 刘正江, 蔡垚, 等. 基于遗传算法的船舶避碰决策辅助[J]. 上海海事大学学报, 2017, 38(1): 12–15.

    NI S K, LIU Z J, CAI Y, et al. Ship collision avoidance decision aids based on genetic algorithm[J]. Journal of Shanghai Maritime University, 2017, 38(1): 12–15 (in Chinese).

    [4] 倪生科, 刘正江, 蔡垚, 等. 基于混合遗传算法的船舶避碰路径规划[J]. 上海海事大学学报, 2019, 40(1): 21–26.

    NI S K, LIU Z J, CAI Y, et al. Ship collision avoidance path planning based on hybrid genetic algorithm[J]. Journal of Shanghai Maritime University, 2019, 40(1): 21–26 (in Chinese).

    [5] 尚明栋, 朱志宇, 周涛. 基于改进蚁群算法的水面无人艇智能避碰方法研究[J]. 船舶工程, 2016, 38(9): 6–9.

    SHANG M D, ZHU Z Y, ZHOU T. Research on intelligent anti-collision method of USV based on improved ant colony algorithm[J]. Ship Engineering, 2016, 38(9): 6–9 (in Chinese).

    [6] 宋勇. 船舶路径规划算法的研究[D]. 武汉: 武汉理工大学, 2018.

    SONG Y. Research on ship path planning algorithm[D]. Wuhan: Wuhan University of Technology, 2018 (in Chinese).

    [7] 欧阳子路, 王鸿东, 王检耀, 等. 基于改进Bi-RRT的无人水面艇自动避碰算法[J]. 中国舰船研究, 2019, 14(6): 8–14.

    OUYANG Z L, WANG H D, WANG J Y, et al. Automatic collision avoidance algorithm for unmanned surface vessel based on improved Bi-RRT algorithm[J]. Chinese Journal of Ship Research, 2019, 14(6): 8–14 (in Chinese).

    [8] 严浙平, 杨泽文, 王璐, 等. 马尔科夫理论在无人系统中的研究现状[J]. 中国舰船研究, 2018, 13(6): 9–18.

    YAN Z P, YANG Z W, WANG L, et al. Research status of Markov theory in unmanned systems[J]. Chinese Journal of Ship Research, 2018, 13(6): 9–18 (in Chinese).

    [9] 王程博, 张新宇, 张加伟, 等. 未知环境中无人驾驶船舶智能避碰决策方法[J]. 中国舰船研究, 2018, 13(6): 72–77.

    WANG C B, ZHANG X Y, ZHANG J W, et al. Method for intelligent obstacle avoidance decision-making of unmanned vessel in unknown waters[J]. Chinese Journal of Ship Research, 2018, 13(6): 72–77 (in Chinese).

    [10] 丁志国, 张新宇, 王程博, 等. 基于驾驶实践的无人船智能避碰决策方法[J]. 中国舰船研究, 2021, 16(1): 96–104, 113. doi: 10.19693/j.issn.1673-3185.01781

    DING Z G, ZHANG X Y, WANG C B, et al. Intelligent collision avoidance decision-making method for unmanned ships based on driving practice[J]. Chinese Journal of Ship Research, 2021, 16(1): 96–104, 113. doi: 10.19693/j.issn.1673-3185.01781

    [11]

    SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. Cambridge, MA: MIT Press, 1998.

    [12] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.

    ZHOU Z H. Machine learning[M]. Beijing: Tsinghua University Press, 2016 (in Chinese).

    [13]

    GÖRGES D. Relations between model predictive control and reinforcement learning[J]. IFAC-PapersOnLine, 2017, 50(1): 4920–4928. doi: 10.1016/j.ifacol.2017.08.747

    [14]

    ENJALBERT S, VANDERHAEGEN F. A hybrid reinforced learning system to estimate resilience indicators[J]. Engineering Applications of Artificial Intelligence, 2017, 64: 295–301. doi: 10.1016/j.engappai.2017.06.022

    [15]

    SHI Y M, DU J, AHN C R, et al. Impact assessment of reinforced learning methods on construction workers' fall risk behavior using virtual reality[J]. Automation in Construction, 2019, 104: 197–214. doi: 10.1016/j.autcon.2019.04.015

    [16]

    GENDERS W, RAZAVI S. Evaluating reinforcement learning state representations for adaptive traffic signal control[J]. Procedia Computer Science, 2018, 130: 26–33. doi: 10.1016/j.procs.2018.04.008

    [17] 卜令正. 基于深度强化学习的机械臂控制研究[D]. 徐州: 中国矿业大学, 2019.

    BU L Z. Study of robot arm control based on deep reinforcement learning[D]. Xuzhou: China University of Mining and Technology, 2019 (in Chinese).

    [18] 陈希亮, 曹雷, 李晨溪, 等. 基于重抽样优选缓存经验回放机制的深度强化学习方法[J]. 控制与决策, 2018, 33(4): 600–606.

    CHEN X L, CAO L, LI C X, et al. Deep reinforcement learning via good choice resampling experience replay memory[J]. Control and Decision, 2018, 33(4): 600–606 (in Chinese).

    [19]

    FUJII Y, TANAKA K. Traffic capacity[J]. The Journal of Navigation, 1971, 24(4): 543–552. doi: 10.1017/S0373463300022384

    [20]

    UHLENBECK G E, ORNSTEIN L S. On the theory of the Brownian motion[J]. Physical Review, 1930, 36(5): 823. doi: 10.1103/PhysRev.36.823

  • 期刊类型引用(12)

    1. Dongsheng YANG,Di LIU,Bing HAN,Guoxiang LU,Lingan KONG,Chaosheng HUANG,Jun LI. Trajectory planning and tracking control for vehicles with tire blowout in complex traffic flows. Science China(Information Sciences). 2025(03): 220-241 . 必应学术
    2. 关巍,曲胜,张显库,胡彤博. 基于改进DQN算法的船舶全局路径规划研究. 中国舰船研究. 2025(01): 107-114 . 本站查看
    3. 黄仁贤,罗亮. 基于多智能体深度强化学习的多船协同避碰策略. 计算机集成制造系统. 2024(06): 1972-1988 . 百度学术
    4. 胡正阳,王勇. 基于深度确定性策略梯度的船舶自主航行避碰方法. 指挥控制与仿真. 2024(05): 37-44 . 百度学术
    5. 胡艺萍. 基于机器视觉的舰船航行系统交互设计研究. 舰船科学技术. 2024(23): 152-155 . 百度学术
    6. 陈立家,孙中泽,黄立文,许毅,李胜为. 一种基于深度强化学习的船舶智能避碰方法. 武汉理工大学学报(交通科学与工程版). 2023(01): 191-196 . 百度学术
    7. 隋丽蓉,高曙,何伟. 基于多智能体深度强化学习的船舶协同避碰策略. 控制与决策. 2023(05): 1395-1402 . 百度学术
    8. 黄仁贤,罗亮,杨萌,刘维勤. 改进双延迟深度确定性策略梯度的多船协调避碰决策. 计算机科学. 2023(11): 269-281 . 百度学术
    9. 臧继明,江保泉. 能见度不良时舰船避碰辅助决策方法. 舰船科学技术. 2023(23): 190-193 . 百度学术
    10. 刘钊,周壮壮,张明阳,刘敬贤. 基于双延迟深度确定性策略梯度的船舶自主避碰方法. 交通信息与安全. 2022(03): 60-74 . 百度学术
    11. 宁滔. 基于数据挖掘的舰船组合导航人机交互界面系统. 舰船科学技术. 2022(13): 174-177 . 百度学术
    12. 张大恒,张英俊,张闯. 基于BP神经网络的船舶气象航线决策系统. 中国舰船研究. 2022(04): 98-106 . 本站查看

    其他类型引用(7)

图(17)  /  表(1)
计量
  • 文章访问数:  1055
  • HTML全文浏览量:  467
  • PDF下载量:  195
  • 被引次数: 19
出版历程
  • 收稿日期:  2020-08-02
  • 修回日期:  2020-12-13
  • 网络出版日期:  2021-11-02
  • 刊出日期:  2021-12-19

目录

/

返回文章
返回