基于强化学习的五子棋对弈APP设计与实现开题报告

2020-02-20 07:18:38

1. 研究目的与意义（文献综述）

近年来，随着手机用户数量的急剧增长和手机媒介技术的不断创新，手机的游戏得到了越来越多人的热爱。其中棋类游戏因其休闲益智，可玩性高等特点深受群众欢迎。五子棋游戏更是吸引着各个年龄段的人群。五子棋是一种两人对战的纯策略型棋类游戏，起源于中国古代的传统黑白棋之一,发展于日本，流行于欧美，玩法简单，老少皆宜[1]。目前，很多游戏平台上都有五子棋，如qq游戏，4399，联众等。

本课题是设计一个安卓平台的五子棋游戏，提供一个人机对弈的功能。目前的很多五子棋程序的对弈策略，一般都采用极大极小搜索、alpha-beta剪枝、小窗口搜索等搜索算法[2]。因为棋类游戏巨大的搜索空间，在短时间内，这些搜索算法很难做到同时兼顾搜索的广度和深度。若想得到最优解，必须通过长时间的搜索，无形中磨灭了玩家游戏的耐心和时间。而且这类算法十分依赖估值函数，估值函数优劣直接决定了棋力的强与弱，而估值函数如何确定，本身就是一个相当复杂的问题[3]。本研究旨在实现基于强化学习的五子棋游戏，利用强化学习算法解决短时间内搜索的精度问题，并且使ai的棋力不再受限与估值函数。使得玩家有更好的游戏体验。

强化学习(reinforcement learning)，又称再励学习、评价学习，是一种重要的机器学习方法[4]。强化学习的算法主要有单步更新的q-learning，sarsa，升级版policy gradients，回合更新的基础版的policy gradients、monte-carlo learning等[4]。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

基本内容：

1）本研究针对五子棋博弈的特点，利用python语言编写强化学习算法。利用算法训练模型。

2）开发一个五子棋android应用，将训练的模型部署到应用中。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

第一阶段（第1周—第3周）：查阅有关的参考资料并完成开题报告；翻译英文资料（不少于5000汉字），并交予指导教师检查。

第二阶段（第4周—第9周）：学习强化学习的理论知识，学习深度学习的理论知识，学习tensorflow编程。

第三阶段（第10周—第13周）：实现python端的五子棋的强化学习算法并训练模型，实现安卓端的五子棋app，将训练好的模型部署到安卓app上

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

[1] suttonr s, barto a g. reinforcement learning: an introduction[m]. mit press, 2018.

[2] silverd, schrittwieser j, simonyan k, et al. mastering the game of go without humanknowledge[j]. nature, 2017, 550(7676):354-359.

[3] fran#231;ois-lavetv, henderson p, islam r, et al. an introduction to deep reinforcementlearning.[z]. 2018: abs/1811.12560.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码