增强学习及其应用研究开题报告

2020-05-01 08:50:40

1. 研究目的与意义（文献综述）

增强学习 (Reinforcement Learning, 简称RL) 是一种有效的最优控制学习方法，实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化学习控制，是近年来一个涉及机器学习，控制理论和运筹学等多个学科的交叉研究方向。增强学习因其具有较强的在线自适应性和对复杂系统的自学能力，使其在机器人导航、非线性控制、复杂问题求解等领域得到成功应用。

经典增强学习算法按照是否基于模型分类，可分为基于模型 (Model-based) 和模型自由 (Model-free) 两类。基于模型的有TD学习、Q学习、SARSA和ACTOR-CRITIC等算法。模型自由的有DYNA-Q和优先扫除等算法。以上经典增强学习算法在理论上证明了算法的收敛性，然而，在实际的应用领域，特别是在大数据环境下，学习的参数个数很多，是一个典型的NP难问题，难以最优化探索和利用两者之间的平衡。为此，近年来的增强学习研究主要集中在减少学习参数数量、避免后验分布全采样和最小化探索次数等方面，达到算法快速收敛的目的。

按照逼近的对象不同，增强学习可以分为：基于值函数逼近的学习算法、基于策略搜索的算法和 Actor-Critic 方法。

1）.基于值函数逼近的增强学习算法：TD(λ)学习算法，Q-学习算法，Sarsa 学习算法；2).基于策略搜索的增强学习算法:策略梯度方法，自然策略梯度方法；3).Actor-Critic 学习算法。

应用与发展趋势：1）.基于核的增强学习算法，传统的函数逼近器存在局部极值的问题，逼近器的结构设计也一直是一个难点问题。为了解决这两个问题，近年来兴起了基于核的增强学习。在增强学习中，核方法(Kernel methods)不仅可以用于策略评估，还可以用于函数逼近。2）.分层增强学习，分层增强学习是近年来提出的用于解决具有大规模状态行为空间问题的一种增强学习方法。分层增强学习的基本思想是将一个复杂的问题分解为多个简单易解的子问题。目前，分层增强学习算法主要有：Option、HAM和 MAXQ等 3 种。

本课题研究的方向是两级倒立摆的几种经典控制方法。倒立摆是一个典型的快速、多变量、非线性、强耦合、自然不稳定系统，必须采取有效的控制算法才能使之稳定。倒立摆在控制过程中，能有效反映诸如镇定性、鲁棒性、随动性以及跟踪等许多关键问题。因此人们常常利用倒立摆检验各种控制稳定性、非线性和快速系统的控制能力，以及各种控制算法的有效性。对倒立摆系统进行研究，不仅具有理论意义，其类似的控制方法和技术还具有实际应用价值。其控制方法在半导体及精密仪器加工、机器人控制技术、人工智能、导弹拦截控制系统、航空对接控制技术、火箭发射中的垂直度控制、卫星飞行中的姿态控制和一般工业应用等方面都具有广阔的利用开发前景。

两级倒立摆模型就是在有限长的轨道L上作直线运动的小车，与小车铰接在一起，并能在竖直平面内分别绕q，q点转动的下、上摆，还有驱动小车的直流力矩电机和转轮、钢丝等传动部分，最后使上、下摆稳定在垂直向上的平衡位置，且使小车稳定在轨道中心位置附近的控制器。

倒立摆系统的计算机控制系统

常见的控制算法有如下几种：

(1) 经典控制理论：通过对倒立摆系统的力学分析，建立系统的动力学数学模型，基于系统的输入输出的数学关系，推导出系统的传递函数。所谓输出反馈原理，就是根据系统输出变化的信息来进行控制，即通过比较系统行为（输出）与期望行为之间的偏差，并消除偏差以获得预期的系统性能。

(2) 现代控制理论：状态反馈。通过对倒立摆系统物理模型的分析，建立系统的动力学模型，然后使用状态空间理论推导出状态方程和输出方程，应用状态反馈，实现对倒立摆的控制。常见的方法有：1）极点配置，2）线性二次型最优控制，3）鲁棒控制，4）状态反馈控制。

(3) 模糊控制理论：主要是确定模糊规则，克服系统的非线性和不确定性实现对倒立摆的稳定控制。利用模糊数学的基本思想和理论的控制方法。在传统的控制领域里，控制系统动态模式的精确与否是影响控制优劣的最主要关键，系统动态的信息越详细，则越能达到精确控制的目的。

近年来，随着增强学习理论的逐步完善，增强学习在实际运用方面也取得了很大进展，特别在解决一些复杂的控制问题中已经有了许多成功的应用，如两级倒立摆模型、西洋双陆棋、电梯时序安排，以及直升机的飞行控制等等。

2. 研究的基本内容与方案

研究设计的基本内容:研习几种典型增强学习（TD学习、Q学习、SARSA、ACTOR-CRITIC）方法，针对两级倒立摆模型系统，运用经典控制方法进行系统仿真。

内容包括：

（一）绪论。增强学习控制方法在研究两级倒立摆的作用

和意义，发展的历史，当前发展的现状及其今后发展的趋势。

（二）增强学习的几种典型学习方法的介绍内容。

（三）两级倒立摆模型建立的研究和控制仿真。

（四）总结。根据相关实验及分析，总结在不同

的控制方法中两级倒立摆典型系统的仿真效果，根据结果分析

算法的利与弊。

主要技术方案（分析两级倒立摆模型）：

二级倒立摆的结构简图如图1的监督管理功能，如实时画

面，数据采集等;数据采集卡安装在计算机内，用完成模/

数、数/模转换;功率放大器用于电压和功率放大;电机是系

统的执行元件;电位计是系统的测量元件，它分别检测小车

相对于轨道中心点的相对位置、下摆相对于铅垂线的角位

移、上摆相对于下摆延长线方向的角位移。通过实验的数

据采集，采用MATLAB编写相应的算法程序仿真，来比较不

同增强学习控制算法下的控制效果。

倒立摆系统的计算机控制系统

论文将以讨论经典控制，现代控制，模糊控制等典型学习

算法学习研究并进行必要的系统仿真为论文的主要对象，发现

不同学习算法的不同点及其利与弊。

3. 研究计划与安排

第 2-3 周：查阅相关文献资料，明确研究内容，了解研究

所需理论知识，确定方案，完成开题报告。

第 4-8 周：探究增强学习典型方法，并对其进行理论分析。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

1. 周志华 .《机器学习》.北京：科学出版社. 2016

2. 蔡自兴, 贺汉根,陈虹. 未知环境中移动机器人导航控制研究的若干问题.控制与决策, 2002, 17(4): 385-390.

3. 王志文, 郭戈. 移动机器人导航技术现状与展望. 机器人, 2003, 25(5):470-474.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码