无人机系统信息传递的延迟分析优化毕业论文
2021-11-08 21:24:45
摘 要
无人机辅助物联网(IoT )系统使IoT系统能够将无人机携带的信息转发给基站。为了解决无线能量无人机数据传输过程的延迟问题。本文在考虑系统位置,队列长度和能量存储的情况下,为每个无人机寻求最优的能量充电策略。本文制定和解决了马尔可夫决策过程的无人机数据传递,以最佳地方式选择能量充电或者传输数据到基站。最终结果表明,本文所提出的MDP方案比基准方案具有较低的预期费用、较高的能量效率和较低的延迟。
关键词:无人机,强化学习,马尔可夫决策过程,无线能量采集
目 录
摘 要 I
目 录 i
1 绪论 1
1.1 无人机研究背景 1
1.2 选题意义及研究内容 1
1.2.1 选题意义 1
1.2.2 研究内容 2
2 MDP的相关原理和方法 4
2.1 强化学习概述 4
2.2 MDP的相关概念 5
2.2.1 基本模型 5
2.2.2 系统的主要组成要素 6
2.2.3 马尔可夫模型 8
2.3 马尔可夫决策过程求解 10
3 无人机系统建模 12
3.1 系统模型 12
3.2 搜索环境建模 13
3.2.1 状态和动作空间 13
3.2.2 位置状态的转换矩阵 14
3.2.3 队列状态的转换矩阵 14
3.2.4 能量状态的转换矩阵 16
3.2.5 整体转移矩阵 17
3.3 模型求解 17
3.3.1 代价函数 17
3.3.2 求解模型 18
4 实验结果分析 19
4.1 参数设定 19
4.2 结果分析 19
4.3 结论 21
参考文献 22
致谢 24
绪论
无人机研究背景
近些年来无人机相关技术和产业进入到一个全新的飞速发展时代,无人机相关应用领域始终在发展壮大。当前,无人机在生产和一些专业领域应用较为广泛,比如农业植保、警用执法、地质勘探、环境监测、森林防火、偏远物流。在较为大众化应用的方面目前仅有航拍等影视娱乐方面。随着5G技术的发展,无人机也逐渐应用在一些超远距离甚至超视距操作的情况。
很多科研者对如何优化无人机系统做出了各种尝试,有基于太阳能驱动无人机的研究方向,这种方案虽然不能适用于需要无人机高强度工作的情形,但是却可以显著降低系统维护的成本;当然也有本文中采取的基于无线充电网络的无人机系统,这种系统一般适用于需要无人机覆盖面积不大情景。除了电源管理方面的研究,也有对无人机的飞行过程进行优化的研究,这涉及到无人机的制导(guidance)、导航(navigation)以及飞行控制算法(control),当然无人机的空气动力学外型设计也可以优化能源消耗。
除了优化无人机能量消耗的研究方向,目前比较主流的研究方向是商业化已经比较成功航拍无人机,因为航拍无人机对续航要求没有农业、工业无人机系统那么高标准,所以目前航拍无人机主要研究方向是低电量自动返航,在各种复杂环境下的飞行稳定性和悬停能力等比较贴切用户直观使用体验的方面。在农业作业用无人机方面,由于某些情况需要无人机要有较长的工作时间,有人提出了采用混合电源作为无人机的电源,这就需要研究如何分配不同电源之间的功率大小。
在一些情况下,无人机需要长期自主的完成工作,这就需要无人机有能够自己补充能源的方法,而同步的无线信息和功率传输可以是通过射频传输补充无人机能量的一种有效方式。目前,如何实现无线能量收集技术来补充无人机能源以提供永久的无线数据和传输的相关研究还比较稀少。本课题的研究的目的就是为了在优化无人机系统的路径管理和能源管理提供新的方案和思路。
选题意义及研究内容
选题意义
无人机最早的出现与第二次世界大战密切相关,大概出现与20世纪20年代,最开始是被用于军事相关方面。随着近一百年时间的发展,无人机技术突破瓶颈,取得了大幅度的发展,不仅仅在军事方面应用获得巨大发展,也越来越多被应用于民用方面。
国务院于2015年5月正式印发了《中国制造2025》,这份文件是我国为了实施制造强国战略的第一个10年计划。文件中对无人机产业化发展做出了明确的指示。[1]有了国家政策的扶植和无人机传感器硬件方面的大幅进步,目前国内对无人机的要求除了功能方面,正在着重于延迟更低,能耗更少,精读更高,控制更加智能化等性能方面。
美国国防部《2009-2034财年无人系统综合路线图》指出, 无人机系统自主能力和鲁棒性的提高,可以提高战场感知,提高目标定位的速度和精度,增强生命力,拓展任务的灵活性。按计划,无人机系统将在2015年实现感知回避能力,到2034年实现在线态势感知,并且完全自主。[2] 从美国的规划可以看出未来无人作战飞机首要技术需求是增加自主性。而在民用方面提高无人机的自主性,可以改善无人机遇到延迟问题时的处理能力。因此,无人机系统未来发展的方向必然是全自主控制。
研究无人机系统信息传递的延迟优化,可以改善无人机在农业、物流、气象等需要无人机协同工作的场景下的数据延迟和功耗。目前国内无人机只是在光学航拍方面处于世界一流水平。而在其他方面发展较为缓慢,这其中一部分原因是受到数据处理技术的限制,通过深入研究无人机系统信息传递中的延迟,与无人机能量补充之间的关系,可以极大的提高无人机系统的自主性,减少人力成本。
研究内容
本课题研究的内容是无人机系统信息传递的延迟优化,这个无人机系统是基于无线充电器(wireless energy chargers),内容源(Content source),移动内容信使(mobile content messengers)和内容目的地(content destination)组成。在网络中,内容源可以访问充电器或信使。在某些情况下,内容源可能不直接与内容目的地会面,而必须利用移动内容信使(无人机)进行内容传递。由于传递过程中的移动和能量消耗,在信使到达目的地之前耗尽自身能量,内容也会被信使丢失,导致内容传送失败,因此内容源必须决定是保持待机充电,还是消耗能量将内容传输给联系的信使。本课题研究的目的就是如何优化这一过程中内容源延迟。
为了优化无人机辅助数据传递,研究中我们假设维持无人机飞行和使用通信设备传递信息分别各自使用自己的电池,也就是说通讯设备有着自己的电池,与无人机电池是分开的,防止无人机飞行过程的能量消耗对实验结果造成干扰。无人机在通信过程中的能量消耗是十分可观的,这部分的能量消耗可能会将无人机的飞行时间减少超过1/5。[3]而且无人机一旦没有足够的能量将其队列中存储的数据传送到基站,将会产生非常高的数据传输延迟。本研究为了优化这个过程中的延迟问题,提出了一种基于无线携能通信无人机的能量充电策略。我们将无人机从无线充电器接受能量并将数据消息发送到目的地的过程视为马尔可夫决策过程并建立模型,模型中,配备有无线充电设施的无人机可以在各个位置之间移动,以收集传感器产生的数据,并在需要使用能量源时发送能量转移请求,例如无线充电器。无人机将数据传送到基站将消耗能量,而无人机的电池需要通过一定成本从能量源中充电来补充能量进行转移。最终我们通过实验模拟得到的数据,比较MDP方案和其他基准方案的优劣。
MDP的相关原理和方法
强化学习概述
强化学习是指从环境状态到行为映射之间的学习过程,目的是一系列的反馈过程中,动作在环境中逐步取得最大的累积回报值,因此强化学习的名称还有加强学习和激励学习等。强化学习的起源属于仿生学的一种,通过观察动物在适应环境过程中的学习过程,总结出两个特征有。第一个特征是在试探环境的过程中,依据得到的反馈会做出积极或消极评价,同时动物依据评价的差异也会调整后续的试探行为,第二个重要的特征就是任何动物都是一直处于试探新环境的过程中,而不是一直固定不变,完全处于被动的等待过程。正是通过试探和评价过程的反复迭代,来实现对环境的学习过程,根据环境对不同行为而做出的评价性反馈信号,逐步强化智能体(Agent)的抉择策略以达到理想的学习目标。
在传统的机器学习领域中,机器学习可以大致地划分为监督学习、非监督学习和强化学习三大类。随着机器学习技术的进步,如今在各大领域中强化学习也逐渐获得了广泛的应用,相关的算法也是层出不穷。由于Agent不具备人类的主观能动性,如何对环境反馈作为新的输入、逐步适应环境是一个艰难的过程。此外当环境变化时,还要做到可以适应环境的差异性,因此对于强化学习系统最终要的衡量指标就是学习能力。