基于强化学习的五子棋alpha-gomoku文献综述
2020-04-24 09:59:21
1.1目的及意义
2011年4月,德国政府在汉诺威工业博览会上提出了“工业4.0”战略。2015年5月19日,中国国务院李克强总理提出了“中国制造2025”的国家战略。2016年3月,谷歌DeepMind团队研发的基于深度强化学习的AlphaGo围棋程序以4:1的大比分战胜来自韩国的世界顶级围棋高手李世石(Lee Sedol)。这成为人工智能世界的里程碑事件,在全世界的范围内,引起了人们对于人工智能的关注,引起了大批学者和学生对于深度强化学习的研究。
人们说当今社会,对于“IT”又有了新的定义,区别于以往的老“IT”(Industrial Technology),旧“IT”(Information Technology),现在的叫做新“IT”(Intelligent Technology)。AlphaGo的胜利预示着新“IT”时代的到来,在新时代,我们需要积极学习新时代的知识,跟上时代的脚步。
相比于围棋在19*19的巨大棋盘上对弈,五子棋的15*15的棋盘相对来说更小,运算的时间和空间复杂度要小很多。因此,五子棋成为了研究深度强化学习的优先选择,是人工智能算法的实验田。所以,该毕业设计的目的在于通过研究基于强化学习的Alpha-Gomoku,了解和掌握深度强化学习等算法,紧跟时代步伐,成为社会的中流砥柱,有用之才。
1.2国内外研究现状
1.2.1 国外研究现状
国外对于五子棋AI的研究起步很早。T.K.William于1991年发表了其基于经验学习的五子棋AI算法。G.Tesauro于1994年研发的TD-Gammon对于五子棋AI算法的改进有很大的贡献,其在论文中提出了自学习方法和时序差分方法。RichardS.Sutton和Andrew G.Barto在1998年出版了《Reinforcement Learning:An Introduction》,是第一本介绍强化学习的书籍,对于强化学习的方法做了详尽的讲解。
2000年后,国外举办有AI五子棋大赛gomocup,欢迎世界各地各团体组织和个人参赛。每年都四月举行其比赛,同时对主要的AI程序进行棋力排名。目前,由孙锴(a Ph.D. student at CornellUniversity)等开发的五子棋AI弈心(YIXIN)是现如今最好的AI程序,弈心成为第13届、14届、15届、16届、17届、18届Gomocup冠军,并以400Elo等级分的优势领先处于第二位的五子棋程序。2017年,弈心成为首个在公开比赛中战胜人类顶尖棋手的人工智能程序。
2016年DeepMind开发的AlphaGo以4:1击败了韩国顶尖高手李世石(Lee Sedol),随后该公司发表了论文《Mastering the game of Go withouthuman knowledge》,论文中提到了该公司开发了AlphaGo Zero以100:0战胜了AlphaGo Lee(战胜李世石的版本)。AlphaGo Zero采用的是深度强化学习方法,将深度神经网络同强化学习结合,在完全没有例子和人类指导的情况下,达到超越人类的水平。