登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 通信工程 > 正文

基于强化学习的机器人避障算法研究与实现毕业论文

 2021-11-02 20:43:14  

摘 要

作为机器学习的一个分支,强化学习不同于监督学习,训练的输入时带有标签的数据,而是致力于不断的同环境进行交互,在交互的过程中学习到最优的策略。本文通过设计深度强化学习避障算法进行仿真模拟,所得结果对于不同环境下的避障系统具有重要意义。

本文主要研究了基于Dueling DQN避障算法的设计,首先,本文介绍了强化学习的基本原理、概念和方法,其中详细的介绍了马尔科夫过程,包括值函数、策略。贝尔曼方程等,总结出了环境和智能体交互的方式和他们之间的界限。然后,又分别介绍了强化学习的模型化算法和无模型化算法,主要介绍了Q-learning算法的实现。综述了深度学习的基本内容以及深度强化学习DQN基本算法和算法,为Dueling DQN避障算法的设计做了铺垫。最后,设计Dueling DQN避障算法并分析仿真结果曲线。

研究结果表明:基于Dueling DQN算法的避障系统可以很好的避免与障碍物发生碰撞,并且能够适应未知障碍物的环境条件。

本文特色:本文采用了深度强化学习中DQN算法的变体Dueling DQN,利用与环境交互的方式来学习策略,适应于未知障碍物的环境条件。并且基于与原始的DQN算法相比,大幅度的提升了学习效果,加速了收敛。

关键词:强化学习;深度学习;Dueling DQN;避障

Abstract

Reinforcement learning is a branch of machine learning. It is different from supervised learning and requires a large amount of labeled data. Instead, it is committed to constantly interacting with the environment and learning the optimal strategy during the interaction. In this paper, a deep reinforcement learning obstacle avoidance algorithm is designed for simulation, and the results obtained are of great significance for obstacle avoidance systems in different environments.

This article mainly studies the design of the obstacle avoidance algorithm based on Dueling DQN. First, this article introduces the basic principles, concepts and methods of reinforcement learning, which introduces the Markov process in detail, including value functions and strategies. Bellman equations, etc., summarize the environment and the way agents interact and the boundaries between them. Then, the modeled and modeless algorithms for reinforcement learning are introduced separately, and the implementation of the Q-learning algorithm is mainly introduced. It summarizes the basic content of deep learning and the basic algorithms and algorithms of deep reinforcement learning DQN, which paves the way for the design of Dueling DQN obstacle avoidance algorithm. Finally, design the Dueling DQN obstacle avoidance algorithm and analyze the simulation results.

The research results show that the obstacle avoidance system based on the Dueling DQN algorithm can avoid collisions with obstacles and can adapt to the environmental conditions of unknown obstacles.

Features of this article: This article uses a variant of the DQN algorithm in deep reinforcement learning, Dueling DQN, which uses interaction with the environment to learn strategies and adapt to the environmental conditions of unknown obstacles. And compared with the original DQN algorithm, the learning effect is greatly improved and the convergence is accelerated.

Key Words:reinforcement learning;deep learning;Dueling DQN; obstacle avoidance

目录

摘 要 I

Abstract II

第1章 绪论 1

1.1目的及意义 1

1.1.1研究目的及意义 1

1.1.2国内外研究现状 1

1.2研究的基本内容 2

第2章 强化学习理论 3

2.1强化学习概述 3

2.2马尔科夫过程 4

2.2.1马尔科夫奖励过程 5

2.2.2 回报和片段 5

2.2.3 价值函数 5

2.2.4 策略 5

2.2.5 贝尔曼方程 6

2.3 本章小结 7

第3章 基于深度强化学习的避障系统原理研究 8

3.1模型化强化学习和DP算法 8

3.1.1强化学习DP算法 8

3.1.2 DP和强化学习的联系 8

3.1.3 策略评估(预测) 9

3.1.4 策略提升 9

3.1.5 策略迭代和值迭代 9

3.1.6 广义策略迭代(GPI) 10

3.2 无模型强化学习和TD算法 10

3.2.1 TD算法 11

3.2.2 TD预测 11

3.2.3 Q-learning算法 11

3.3 深度学习基础 13

3.3.1 人工神经网络 13

3.3.2 三个基本层 14

3.3.3 激活函数 14

3.3.4 反向传播 15

3.4 本章小结 16

第4章 基于深度强化学习的避障系统的算法实现 17

4.1 基于Dueling DQN的避障系统 17

4.1.1 图像预处理 17

4.1.2 值函数逼近 17

4.1.3 探索与利用的权衡 18

4.2 Dueling DQN算法流程 19

4.3 本章小结 21

第5章 基于深度强化学习的避障系统测试 22

5.1 避障模块设计 22

5.1.1 环境模型 22

5.1.2 奖赏函数的设计 22

5.1.3 算法流程设计 22

5.2 实验参数设定 23

5.3 仿真结果分析 24

5.4 本章小结 28

结 论 29

致 谢 30

参考文献 31

第1章 绪论

1.1目的及意义

1.1.1研究目的及意义

机器人有很多用途,不仅仅可以代替人类进行机械式的工作,还可以进行模拟一些真实的环境。它侧重于传感器技术,计算机科学,电子技术,自动控制和人工智能等的研究成果。

如果机器人对其操作环境基本了解,则可以将这个环境知识应用于机器人的路线规划中。但是,随着环境的困难度的增加,因为需求精确的环境模型从而大大降低了其有效性。在这种情况下,路线规划技术取决于传感器的实时信息,适应性强的算法具有很大的优势。一般的路径规划方法在某些方面具有优势,但同时也存在一些问题,例如缓慢的算法和大量的计算机存储,以及确定标准和样品的困难。

为了克服上述方法的问题,有必要使用其他方法进行研究测试,强化学习方法是一种适应性强的学习方法,它能够模仿人类的学习过程。在一些障碍物环境下,可以有效的避免相撞,还可以根据相应的要求调整学习目标,达到想要的结果。

1.1.2国内外研究现状

随着计算机技术的发展,计算机的计算能力大幅度提升,使得之前复杂度较高的算法得以使用。机器人的路径规划有很多优秀可行的算法,比如,模糊逻辑[1]算法,神经网络[2]方法,进化算法[3],强化学习等,它们的周围环境是未知的或部分未知的。下面是具体的相关介绍。

(1)1986年,Khatib提出的人工势场[4]方法初步解决了避免机器人障碍的问题。随后,许多学者不仅开发了这种方法,而且将其应用于实时机器人路径规划和足球运动控制,人工势场方法可以实现快速控制,因此广泛应用于实时运动控制。

您需要先支付 50元 才能查看全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图