基于强化学习的五子棋alpha-gomoku文献综述

2020-04-24 09:59:21

1．目的及意义

1.1目的及意义

2011年4月，德国政府在汉诺威工业博览会上提出了“工业4.0”战略。2015年5月19日，中国国务院李克强总理提出了“中国制造2025”的国家战略。2016年3月，谷歌DeepMind团队研发的基于深度强化学习的AlphaGo围棋程序以4:1的大比分战胜来自韩国的世界顶级围棋高手李世石(Lee Sedol)。这成为人工智能世界的里程碑事件，在全世界的范围内，引起了人们对于人工智能的关注，引起了大批学者和学生对于深度强化学习的研究。

人们说当今社会，对于“IT”又有了新的定义，区别于以往的老“IT”(Industrial Technology),旧“IT”(Information Technology)，现在的叫做新“IT”(Intelligent Technology)。AlphaGo的胜利预示着新“IT”时代的到来，在新时代，我们需要积极学习新时代的知识，跟上时代的脚步。

相比于围棋在19*19的巨大棋盘上对弈，五子棋的15*15的棋盘相对来说更小，运算的时间和空间复杂度要小很多。因此，五子棋成为了研究深度强化学习的优先选择，是人工智能算法的实验田。所以，该毕业设计的目的在于通过研究基于强化学习的Alpha-Gomoku，了解和掌握深度强化学习等算法，紧跟时代步伐，成为社会的中流砥柱，有用之才。

1.2国内外研究现状

1.2.1 国外研究现状

国外对于五子棋AI的研究起步很早。T.K.William于1991年发表了其基于经验学习的五子棋AI算法。G.Tesauro于1994年研发的TD-Gammon对于五子棋AI算法的改进有很大的贡献，其在论文中提出了自学习方法和时序差分方法。RichardS.Sutton和Andrew G.Barto在1998年出版了《Reinforcement Learning:An Introduction》,是第一本介绍强化学习的书籍，对于强化学习的方法做了详尽的讲解。

2000年后，国外举办有AI五子棋大赛gomocup，欢迎世界各地各团体组织和个人参赛。每年都四月举行其比赛，同时对主要的AI程序进行棋力排名。目前，由孙锴（a Ph.D. student at CornellUniversity）等开发的五子棋AI弈心（YIXIN）是现如今最好的AI程序，弈心成为第13届、14届、15届、16届、17届、18届Gomocup冠军，并以400Elo等级分的优势领先处于第二位的五子棋程序。2017年，弈心成为首个在公开比赛中战胜人类顶尖棋手的人工智能程序。

2016年DeepMind开发的AlphaGo以4:1击败了韩国顶尖高手李世石（Lee Sedol）,随后该公司发表了论文《Mastering the game of Go withouthuman knowledge》，论文中提到了该公司开发了AlphaGo Zero以100:0战胜了AlphaGo Lee（战胜李世石的版本）。AlphaGo Zero采用的是深度强化学习方法，将深度神经网络同强化学习结合，在完全没有例子和人类指导的情况下，达到超越人类的水平。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码