基于强化学习的五子棋Agent的设计与实现文献综述
2020-06-23 20:43:25
强化学习是机器学习一个重要分支[1],不同于传统的监督学习,它不需要大量数据和标签,而是通过Agent的某个行为策略导致的环境变化进行相应的奖赏和惩罚[2],以此来强化Agent的行为趋势。
一个基本的强化学习过程可以模式化为一个马尔科夫决策过程[3],它包括: 1、 一系列环境和Agent的状态集合S。
2、 一系列Agent的行为集合A。
3、 指的是经过行为a由状态s转变为状态s#8217;的概率。
4、 经过行为a状态由s转变为s#8217;所获得的即刻回报值。
5、 Agent所观测到的规则(随机的)。
通常来说,Agent的行为是受到限制的,它在每一个时间点t收到一个观测值,通常其中包含奖励 ,然后它从允许的集合中选择一个动作 ,然后送到环境中去,环境则变化到一个新的状态 ,然后决定了和这个变化( , , )相关联的奖励 ,强化学习Agent的目标就是尽可能得到多的奖励。
Agent所选择的动作是基于其历史的函数(也可以随机选择)。
和自始至终都以最优方式行动的Agent相比,它必须依据它长时间的行动序列进行推理,因此它当前所做出的行为也许不会即刻的最大利益,但就整体过程来看,它获得了较高的回报。
因此,强化学习对于包含长期反馈的问题比短期反馈的表现要更好。