基于强化学习的五子棋对弈APP设计与实现任务书
2020-02-20 08:38:27
1. 毕业设计(论文)主要内容:
强化学习是一类利用环境奖惩学习动作策略的机器学习,主要用于决策问题上。强化学习是一类很强大机器学习,在2017年10月,AlphaGo Zero横空出世,完全从零开始训练就战胜了世界第一的棋手。
AlphaGo Zero让人们看到强化学习在棋类博弈中的应用,以往的棋类博弈游戏,大多利用优化搜索算法去进行博弈搜索,这样的棋类游戏可玩性很差。而强化学习的加入可以让“电脑”变得更加智能,也就提高了游戏的可玩性。而五子棋作为一种老少皆宜的益智游戏,如果可以加入强化学习既可以增加游戏的可玩性,也具有一定研究价值。
2. 毕业设计(论文)主要任务及要求
(1)利用强化学习算法编写与模型的训练:
3. 毕业设计(论文)完成任务的计划与安排
2019年1月11日-2019年1月31日:阅读文献,主要是强化学习,优化搜索的相关的文献;
2019年2月1日-2019年2月28日:掌握技能,具有针对性的学习编程语言,算法,尝试实现已阅读文献中的方法,完成开题报告;
4. 主要参考文献
[1] sutton r s, barto a g. reinforcementlearning: an introduction[m]. mit press, 2018.
[2] silver d, schrittwieser j,simonyan k, et al. mastering the game of go without human knowledge[j]. nature,2017,550(7676):354-359.doi:10.1038/nature24270.