One-搜狐微门户

本篇文章1330字，读完约3分钟

雷锋。作者费霞和清华大学毕业于卡耐基梅隆大学，现在在谷歌从事技术研发。本文对发表在《自然》杂志上的著名论文《用深度神经网络和树搜索掌握围棋》进行了总结，并对阿尔法围棋的算法结构进行了总结。原文摘要是用英语写的，由雷锋编辑的。请点击这里阅读原文。

以下总结了2016年Go在人工智能的帮助下取得的突破。

围棋是一个完全的信息游戏问题。完整的信息博弈通常可以简化为寻找最优值的树搜索问题。它包含b到d次幂的可能分支，以及象棋中的b≈35和d≈80；在Go中，b≈250，d≈150。显然，对于围棋来说，使用穷举法或简单的启发式是不可行的。但是有有效的方法:

策略p (a | s)中减少搜索范围的示例操作

通过位置评估减少搜索深度

将策略和价值与蒙特卡罗树搜索相结合。

通常的步骤是用一个13层的有线电视新闻网直接从人的动作中训练一个监督学习策略网络pσ。输入是48 x 19 x 19的图像(例如，其组成棋子的颜色是3 x 19 x 19)，输出是softmax层预测的所有倒下的孩子的概率。准确率为55.7%。

训练一个快速策略pπ，它可以在运行时快速采样动作。这将使用基于小图案特征的线性软最大值。准确率为24.2%，但计算一个下落的孩子只需要2微秒，不像pσ需要3毫秒。

训练一个增强的学习策略网络ρ，并通过优化博弈结果进一步完善监督策略网络。这个策略网络是为了赢得游戏而优化的，而不是为了优化预测精度。本质上，pρ和pσ的结构是相同的。它们的权重用相同的值ρ = σ初始化。游戏中的两个玩家是随机选择的当前策略网络ρ和先前的策略网络迭代(以防止过度拟合)。

训练价值网络(vθ)预测强化学习策略网络的赢家，与自己下棋。该网络的架构类似于策略网络的架构，但是还有一个特征平面(当前玩家的颜色)，并且输出变成单个预测(返回，均方误差损失)。根据整个游戏来预测游戏结果很容易导致过度拟合。这是因为连续孩子的位置之间有很高的相关性，只有一个孩子的差异。因此，本文采用强化学习策略网络来对抗新生成的数据。这些数据来自3000万个不同位置的独立象棋游戏。

One

结合策略网络、价值网络、快速策略和蒙特卡罗树搜索。标准的蒙特卡罗树搜索过程包括四个步骤:选择、扩展、评估和备份。为了让大家更容易理解，我们只粗略地谈了一下如何在模拟中选择状态(如果你对数学感兴趣，请在原纸中找到公式)。

状态得分=价值网络输出+快速推广策略结果+监督学习策略网络输出

将选择高分(或低分)。价值网络的输出和快速运行策略的结果是评估函数，在叶节点进行评估(注意，为了评估快速运行，它需要一直进行到最后一步)。监督学习策略的网络输出是当前阶段的一个动作概率，作为选择分数的奖励。分数会随着鼓励探索的访问次数而降低。注意强化学习策略网络仅用于帮助生成价值网络，并不直接用于蒙特卡罗树搜索。

One

这就是结局，这就是打败人类的阿尔法戈算法！

维志虎，雷锋编(公开号:雷锋)。

让你的阿尔法在28天内(我)

王小川对alphago 2.0发表了评论:它与1.0的原则有很大不同，更贴近人们

经过4.5小时的战斗，柯杰失去了阿尔法戈的四分之一

来源：搜狐微门户

标题：One

地址：http://www.shwmhw.com/shxw/62114.html

One

相关推荐

“九章”面世，“嫦娥”落月:前沿高科技的中华文明表达

印度宣布禁用百度和微博；苹果回应称对收购TikTok交易不感兴趣；预计5G智能手

迈过年报这个坎 2017美图能给投资人带来惊喜吗？

外媒：同其他厂商相比苹果29美元更换电池算不上折扣

新增2地职称互认！多地二级建造师可跨区域注册！题王网tiw.cn

阿里Q3财报：集团单季营收破千亿大文娱走向大协同

特斯拉申请新专利提高Autopilot系统障碍物识别能力

让钱为你去工作——衣百分自助洗衣店

中金：2020年5G投资预算充足留意5G手机销售滞后风险

热门:宠物公墓：“对哪些没养过的人，不太容易让他们明白其中的意义”

本月热文

阿里云账号代购，阿里云购买相同配置的实例

挑选太仓SMT智能料架公司，绝不踩雷的方法！_佰斯特POUSTO

win10全屏优化会让游戏卡吗_win10全屏优化会让游戏卡吗

阿里云国际服务器购买，阿里云国际代理商

国际版阿里云/腾讯云：免费账号：运用邮箱注册的账号、充值教程

加盟儿童美术教育的投资人要符合哪些条件呢

win10优化开机启动项_win10如何优化开机启动项

win7运行速度提高90pedit_

win10自带清理软件_win10清理软件哪个好

阿里云国际账号24h自助充，阿里云服务器购买

最新发布

wf展会2022上海_wf展会2022上海延期

ween是什么牌子_ween是什么牌子衣服

ween是什么公司_WeEn是什么公司

电厂工地洗车机是如何进行水循环使用的？

web问如何优化网站_web网页优化

保持防静电贯通式货架高效安全的秘诀_佰斯特POUSTO

阿里云服务器购买，阿里云账号免实名注册

阿里云国际服务器购买，阿里云免实名注册

阿里云国际账号免实名注册，阿里云服务器购买

阿里云国际账号注册，阿里云服务器购买，阿里云24h小时自助充

网站简介