基于强化学习的五子棋Agent的设计与实现开题报告

2020-06-23 20:51:20

1. 研究目的与意义（文献综述包含参考文献）

强化学习是机器学习一个重要分支[1]，不同于传统的监督学习，它不需要大量数据和标签，而是通过agent的某个行为策略导致的环境变化进行相应的奖赏和惩罚[2]，以此来强化agent的行为趋势。

一个基本的强化学习过程可以模式化为一个马尔科夫决策过程[3]，它包括： 1、一系列环境和agent的状态集合s。

2、一系列agent的行为集合a。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容、问题解决措施及方案

#61548; 设计五子棋界面以及胜负判定规则。

#61548; 实现使用值函数近似以及使用msct方法进行策略提升的强化学习算法 #61548; 对强化学习算法中的参数进行调节，使其达到最好的训练效果 #61548; 把强化学习算法与五子棋逻辑相结合 #61548; 对训练成果进行可视化 2. 拟采用的研究途经： #61548; 查阅网上有关强化学习算法的文献资料，同时也会参考一些其他的强化学习应用案例，借鉴并结合自己所做的，进行改进和优化。

#61548; 学习并掌握python编程语言以及相关机器学习库的应用 #61548; 学习js等网页脚本语言，编写动态页面展示成果

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码