基于强化学习的船舶避碰系统（算法）文献综述

2020-04-23 19:56:04

1．目的及意义

1.1研究背景：

船舶避碰是一个很久以前就有的课题，许多学者提出了不同的解决方案，利用基于AIS的船舶避碰智能决策，利用智能算法基于进化遗传算法的船舶避碰，基于贝叶斯网络的船舶避碰算法等，这些算法可以解决很多船舶避碰的问题，但无法综合考虑复杂海况下的不同的环境的影响，比如风力，风向的改变，海浪对船的影响，本课题采用强化学习的方法来解决这些问题。

近年来强化学习效果显著，强化学习(reinforcementlearning, 又称再励学习, 评价学习)是一种重要的机器学习方法, 在智能控制、机器人及分析预测等领域有许多应用。随着近几年深度学习的发展，演化出了深度增强学习这一种新的算法，深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的算法。

2010年 Lang提出了Deep auto-encoder用于基于视觉的相关控制，尝试将深度学习和增强学习结合，和目前的框架已经有些相似。在2011年，Abtahi等人用DBN替代传统的强化学习中的逼近器，但真正成功的开端是DeepMind在NIPS 2013上发表的一篇关于深度强化学习的文章引起了广泛的关注，PieterAbbeel团队紧随DeepMind之后，采用另一种方法直接实现了机器人的End-to-End学习，其成果也引起了大量的媒体报道和广泛关注。2017年，Google团队alphago zero对战世界排名第一的围棋选手坷洁的胜利，机器学习领域兴起了强化学习研究热潮。

强化学习是可以有效解决复杂环境因素，让设定好的环境反馈给我们强化信号，以此来产生正确的动作，实现更加优良的避碰。

1.2 目的及意义：

课题的目的是

1.了解强化学习、船舶避碰等概念和技术；
2.对船舶避碰策略进行强化学习算法设计，包括环境、智能体、状态、策略、回报的设计等；
3.实现基于强化学习的船舶避碰算法。

课题的意义是能随时的判断船舶面临的状况，分析两船之间的各个数据，并给出安全避碰决策。能显著提高船舶的安全性，避免船体在运行移动过程中出现危险，利用强化学习自动避碰减少人工失误。

{title}

2. 研究的基本内容与方案

{title}

2.1基本内容（功能）：

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码