登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 任务书 > 计算机类 > 物联网工程 > 正文

基于强化学习的迷宫寻宝策略及APP设计与实现任务书

 2020-02-20 08:38:34  

1. 毕业设计(论文)主要内容:


强化学习是智能体(agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统rls(reinforcementlearning system)如何去产生正确的动作。由于外部环境提供的信息很少,rls必须靠自身的经历进行学习。通过这种方式,rls在行动-评价的环境中获得知识,改进行动方案以适应环境。

同样的,寻宝游戏也是一个不断探索,不断“试错”来进行学习的过程。所以,本研究的目的在于强化学习的寻宝游戏策略研究,设计并实现一个运用强化学习算法的android寻宝游戏app。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 毕业设计(论文)主要任务及要求

(1)基于强化学习的寻宝游戏策略研究:
强化学习是一个很大的范畴,其中包括了许多算法。

这些算法中比较经典的有使用表格学习的q-learning算法,sarsa算法;使用神经网络学习的deep q network算法以及直接输出行为的policy gradient算法等等,本研究中,我们可以任选其中一种算法或采取其他的强化学习算法来展开研究。

具体需要满足:设计一个寻宝游戏的app,地图类似于迷宫,路径上会有陷阱,需要操纵角色找到终点处的宝藏。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 毕业设计(论文)完成任务的计划与安排


2019年1月11日-2019年1月31日:阅读文献,主要是形状检索与识别相关的文献;

2019年2月1日-2019年2月28日:掌握技能,具有针对性的学习编程语言和强化学习算法相关知识,尝试实现已阅读文献中的方法,完成开题报告;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 主要参考文献

[1] 郭霖. 第一行代码——Android[M]. 人民邮电出版社, 2016.
[2] Sutton R S, Barto A G. Reinforcement learning: An introduction[M]. MIT press, 2018.
[3] Watkins C J C H, Dayan P. Q-learning[J]. Machine learning, 1992, 8(3-4): 279-292.
[4] Wang Y H, Li T H S, Lin C J. Backward Q-learning: the combination of Sarsa algorithm and Q-learning[J]. Engineering Applications of Artificial Intelligence, 2013, 26(9): 2184-2193.
[5] Gu S, Lillicrap T, Sutskever I, et al. Continuous deep q-learning with model-based acceleration[C]//International Conference on Machine Learning. 2016: 2829-2838.
[6] Sutton R S, McAllester D A, Singh S P, et al. Policy gradient methods for reinforcement learning with function approximation[C]//Advances in neural information processing systems. 2000: 1057-1063.

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图