登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 软件工程 > 正文

基于神经驱动的多智能体强化学习方法研究毕业论文

 2021-10-15 20:57:26  

摘 要

随着神经网络学习技术和多智能体技术的发展,多智能体学习得到蓬勃发展,导致智能体的应用和需求变大。多智能体的研究领域主要包括:多智能体学习、多智能体推理、多智能体规划、多智能体交互、多智能体协商等。多智能体的研究主要应用在智能机器人、分布式计算、交通控制等方面,比如在智能机器人方面可以应用在足球机器人,利用多智能系统,将每一个足球机器人作为一个智能体来看,建立多智能体足球机器人协调系统,从而实现多个智能机器人相互之间能够协调工作,合作完成任务。

所谓的多智能体系统,是指由多个可感知、可计算的智能体组成的集合,其中的每一个智能体可以看做一个物理或抽象的实体,它们可以和环境相互作用,从环境中得到反馈,并能够实现和其他智能体之间的通讯。多智能体学习主要研究的是智能体之间行为上的协调和合作,多智能体之间的学习方法和知识是可以共享的,它们为了一个共同的全局目标或各自的目标作出相应的行动。

神经网络作为一种新兴的信息处理学科与技术,自上世纪70年代后期迅速发展起来。神经网络以人脑的工作模式为理论基础,在结构和功能上对人脑神经元进行模拟,从而实现模拟人脑的功能。神经网络的非线性可以提高容错性和存储容量,非局限性可以实现联想记忆,非常定性可以实现网络的自学习能力,非凸性可以实现系统多样性。神经网络的应用领域十分广泛,在自动化控制领域、模式识别、图像处理、信号处理、机器人控制、卫生保健医疗领域、焊接领域、经济领域都有应用。在神经网络学习中,主要分为三种类型的神经网络,监督学习、非监督学习、半监督学习。

本文的主要研究目标是对经典的监督学习、非监督学习、半监督学习算法进行介绍,对半监督学习中提及的强化学习进行研究。通过比较各种算法的时间复杂性,评价算法的优劣。对算法参数、初始条件等因素进行调整,实现算法的改进。这里监督学习算法主要是反向传播算法,非监督学习算法主要是聚类算法,半监督学习算法主要实现强化学习值迭代、策略迭代、Q-learning算法。这篇毕业论文主要对强化学习方法进行研究,对多智能体行为决策提供解决方案。

本课题将神经网络和多智能学习进行融合,以神经元与神经网络的微观视角对基于学习的多智能体宏观协同合作行为做建模分析。该工作能够为社会规范涌现、观点动力学等智能体宏观决策行为提供微观神经元和脑认知解释,具有重要意义。

关键词:多智能体学习、神经网络、强化学习、Q-learning

Abstract

With the development of neural network learning and multi-agent technology,the multi-agent learning boom, leading to the phenomenon that applications and requirements of agent becomes large. The areas of multi-agent learning include: multi-agent learning, multi-agent reasoning, multi-agent planning, multi-agent interaction, multi-agent negotiation and so on. The study of multi-agent mainly applies in intelligent robots, distributed computing, traffic control and other aspects.For instance,intelligent robots can be used in robot soccer, in the multi-agent system,each robot as a football agent to establish a multi-agent soccer robot coordinate system, in order to achieve a plurality of intelligent robots with each other, working together and cooperation to complete the task.

The multi-agent system,as we known,is a collection of agents that can be Appreciable with some unit that has Calculate ability. each of the agents can be seen as a physical agent or abstract entities, and they can interact with the environment,get feedback from the environment,be able to communicate with other agents. Multi-agent learning is the main research coordination and cooperation between intelligent behavior on the body, learning methods and multi-agent knowledge can be shared between that for a common global goals or individual goals act accordingly.

Neural networks as an emerging discipline and information processing technology, developed rapidly since the late 1970s. Neural Networks is based on the working mode of the human brain as the theoretical principle, simulate in the structure and function of neurons,in order to achieve functional simulation of the human brain.A nonlinear neural network can improve fault tolerance and storage capacity, non-associative memory limitations can be achieved, can be achieved very qualitative self-learning ability of the network, nonconvex can achieve diversity. Neural network applications is very wide, in the field of automatic control, pattern recognition,image processing,signal processing, robot control,health care medical,welding and economic are applied. Neural network learning can be divided into three types of neural networks, supervised learning, unsupervised learning, semi-supervised learning.

The main objective of this paper is to introduce classical supervised learning, unsupervised learning, semi-supervised learning algorithms.reinforcement learning mentioned in the study for semi-supervised learning. By comparing the time complexity of various algorithms to evaluate the merits of the algorithm. Factors,algorithm parameters, initial conditions will be adjusted, to achieve improved algorithm. Here supervised learning algorithm is mainly back-propagation algorithm, unsupervised learning algorithm is mainly clustering algorithm, the main achievement of semi-supervised learning algorithm reinforcement learning value iteration, policy iteration, Q-learning,algorithm. This thesis mainly work on the reinforcement learning methods to study the behavior of multi-agent decision-making solutions.

This paper will study neural networks and fused to multi-agent learning,to use neurons and neural network-based collaborative macro-micro perspective to modeling analysis for multi-agent cooperative behavior. The work has great significance that could provide microscopic view of neurons and brain cognitive interpretation for emerging as social norms, intelligent decision-making body macroscopic behavior dynamics.

Keywords: Multi-agent learning、Neural networks、Reinforcement learning、Q-learning

目录

第1章 绪论 5

1.1 研究背景与意义 5

1.2 强化学习的发展现状 6

1.3 本文的研究目标和内容 7

1.4 论文结构 7

第2章 智能体与强化学习概述 8

2.1 强化学习的概念 8

2.2 强化学习的模型 8

2.3 强化学习三要素 8

2.4 强化学习的应用 11

2.5 值函数的逼近 11

第3章 马尔可夫决策过程 15

3.1 多智能体学习与马尔可夫决策 15

3.2 马尔可夫决策过程 15

3.3 马尔可夫决策的定义 15

3.4 时间上连续马尔可夫过程 16

3.4.1 时间上连续马尔可夫过程的概念 16

3.4.2 时间上连续马尔可夫过程的应用 17

3.5 受限的马尔可夫决策过程 17

第4章 强化学习算法实现与分析 18

4.1 线性编程 18

4.1.1 算法描述 18

4.1.2 算法分析 19

4.2 值迭代 21

4.2.1 算法描述 22

4.2.2 算法分析 23

4.3 高斯-赛德尔值迭代 25

4.3.1 算法描述 25

4.3.2 算法分析 25

4.4 策略迭代 27

4.4.1 算法描述 27

4.4.2 算法分析 28

4.5 改进的策略迭代 29

4.5.1 算法描述 29

4.5.2 算法分析 30

4.6 Q_learning 32

4.6.1 算法描述 33

4.6.2 算法分析 34

4.7 小结 35

第5章 总结语 37

5.1 论文工作总结 37

5.2 问题与展望 37

绪论

研究背景与意义

智能体agent的一个关键特点是具备适应和影响未知环境的能力,对于智能体agent来说,学习能力是它的重要属性之一。对于机器学习领域而言,可以按照环境反馈给智能体的信号的差异,机器学习技术能够分为监督学习、非监督学习和强化学习等三大类。作为机器学习的一种算法,强化学习是一类应用十分广泛的机器学习算法,它以外界反馈的激励作为智能体agent的输入,通过自身学习能力,适应并调节环境。20世纪80年代末, 由于数学研究方面的进展,促使强化学习翻开了历史的新篇章,强化学习方面的探索和应用一度备受关注,现已成为机器学习的研究热点。

源于长时间对动物学习的观察和Pavlov条件反射假说[1],强化学习(RL)诞生。强化学习概念最早是由于Minsky于1945年提出的。自1980年始,研究人员对人工智能的研究十分活跃,提出的重要算法有瞬时差分算法(TD)和Q学习算法,这个时代成为强化学习理论和应用研究领域的一个里程碑,使得强化学习理论能够真正从理论走向应用。对于一个标准的强化学习来说,通常是将一个单独的智能体作为承载来完成任务的。

您需要先支付 50元 才能查看全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图