基于强化学习的船舶避碰系统(算法)文献综述
2020-04-23 19:56:04
1.1研究背景:
船舶避碰是一个很久以前就有的课题,许多学者提出了不同的解决方案,利用基于AIS的船舶避碰智能决策,利用智能算法基于进化遗传算法的船舶避碰,基于贝叶斯网络的船舶避碰算法等,这些算法可以解决很多船舶避碰的问题,但无法综合考虑复杂海况下的不同的环境的影响,比如风力,风向的改变,海浪对船的影响,本课题采用强化学习的方法来解决这些问题。
近年来强化学习效果显著,强化学习(reinforcementlearning, 又称再励学习, 评价学习)是一种重要的机器学习方法, 在智能控制、机器人及分析 预测等领域有许多应用。随着近几年深度学习的发展,演化出了深度增强学习这一种新的算法,深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的算法。
2010年 Lang提出了Deep auto-encoder用于基于视觉的相关控制,尝试将深度学习和增强学习结合,和目前的框架已经有些相似。在2011年,Abtahi等人用DBN替代传统的强化学习中的逼近器,但真正成功的开端是DeepMind在NIPS 2013上发表的一篇关于深度强化学习的文章引起了广泛的关注,PieterAbbeel团队紧随DeepMind之后,采用另一种方法直接实现了机器人的End-to-End学习,其成果也引起了大量的媒体报道和广泛关注。2017年,Google团队alphago zero对战世界排名第一的围棋选手坷洁的胜利,机器学习领域兴起了强化学习研究热潮。
强化学习是可以有效解决复杂环境因素,让设定好的环境反馈给我们强化信号,以此来产生正确的动作,实现更加优良的避碰。
1.2 目的及意义:
课题的目的是
1.了解强化学习、船舶避碰等概念和技术;
2.对船舶避碰策略进行强化学习算法设计,包括环境、智能体、状态、策略、回报的设计等;
3.实现基于强化学习的船舶避碰算法。
课题的意义是能随时的判断船舶面临的状况,分析两船之间的各个数据,并给出安全避碰决策。能显著提高船舶的安全性,避免船体在运行移动过程中出现危险,利用强化学习自动避碰减少人工失误。
{title}2. 研究的基本内容与方案
{title}2.1基本内容(功能):