本篇文章1330字,读完约3分钟
雷锋。作者费霞和清华大学毕业于卡耐基梅隆大学,现在在谷歌从事技术研发。本文对发表在《自然》杂志上的著名论文《用深度神经网络和树搜索掌握围棋》进行了总结,并对阿尔法围棋的算法结构进行了总结。原文摘要是用英语写的,由雷锋编辑的。请点击这里阅读原文。
以下总结了2016年Go在人工智能的帮助下取得的突破。
围棋是一个完全的信息游戏问题。完整的信息博弈通常可以简化为寻找最优值的树搜索问题。它包含b到d次幂的可能分支,以及象棋中的b≈35和d≈80;在Go中,b≈250,d≈150。显然,对于围棋来说,使用穷举法或简单的启发式是不可行的。但是有有效的方法:
策略p (a | s)中减少搜索范围的示例操作
通过位置评估减少搜索深度
将策略和价值与蒙特卡罗树搜索相结合。
通常的步骤是用一个13层的有线电视新闻网直接从人的动作中训练一个监督学习策略网络pσ。输入是48 x 19 x 19的图像(例如,其组成棋子的颜色是3 x 19 x 19),输出是softmax层预测的所有倒下的孩子的概率。准确率为55.7%。
训练一个快速策略pπ,它可以在运行时快速采样动作。这将使用基于小图案特征的线性软最大值。准确率为24.2%,但计算一个下落的孩子只需要2微秒,不像pσ需要3毫秒。
训练一个增强的学习策略网络ρ,并通过优化博弈结果进一步完善监督策略网络。这个策略网络是为了赢得游戏而优化的,而不是为了优化预测精度。本质上,pρ和pσ的结构是相同的。它们的权重用相同的值ρ = σ初始化。游戏中的两个玩家是随机选择的当前策略网络ρ和先前的策略网络迭代(以防止过度拟合)。
训练价值网络(vθ)预测强化学习策略网络的赢家,与自己下棋。该网络的架构类似于策略网络的架构,但是还有一个特征平面(当前玩家的颜色),并且输出变成单个预测(返回,均方误差损失)。根据整个游戏来预测游戏结果很容易导致过度拟合。这是因为连续孩子的位置之间有很高的相关性,只有一个孩子的差异。因此,本文采用强化学习策略网络来对抗新生成的数据。这些数据来自3000万个不同位置的独立象棋游戏。
结合策略网络、价值网络、快速策略和蒙特卡罗树搜索。标准的蒙特卡罗树搜索过程包括四个步骤:选择、扩展、评估和备份。为了让大家更容易理解,我们只粗略地谈了一下如何在模拟中选择状态(如果你对数学感兴趣,请在原纸中找到公式)。
状态得分=价值网络输出+快速推广策略结果+监督学习策略网络输出
将选择高分(或低分)。价值网络的输出和快速运行策略的结果是评估函数,在叶节点进行评估(注意,为了评估快速运行,它需要一直进行到最后一步)。监督学习策略的网络输出是当前阶段的一个动作概率,作为选择分数的奖励。分数会随着鼓励探索的访问次数而降低。注意强化学习策略网络仅用于帮助生成价值网络,并不直接用于蒙特卡罗树搜索。
这就是结局,这就是打败人类的阿尔法戈算法!
维志虎,雷锋编(公开号:雷锋)。
相关文章:
让你的阿尔法在28天内(我)
王小川对alphago 2.0发表了评论:它与1.0的原则有很大不同,更贴近人们
经过4.5小时的战斗,柯杰失去了阿尔法戈的四分之一
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:One
地址:http://www.shwmhw.com/shxw/62114.html