本篇文章3196字,读完约8分钟
本文由三传、宗仁和范晓共同编辑。
雷技术回顾:乌镇Go Summit第二天,德米斯·哈萨比斯+大卫·西尔弗在昨天的主题演讲中公开介绍了与柯杰并肩作战的阿尔法戈,阿尔法戈主程序员大卫·西尔弗在演讲中谈到了阿尔法戈的重点介绍,雷技术回顾根据现场原话整理出以下内容。
摘要:有了如此强大的战略网络和价值网络,阿尔法戈探索招式的基本搜索树可以大大减少。在之前的版本中,alphago lee仍然通过“只考虑人类可能的位置”和“预测50轮”来限制搜索范围。现在阿尔法戈大师已经认为是世界上最有价值的位置,并预测更少的回合可以达到更高的精度。这样,蒙特卡罗树变得更窄、更浅,并且考虑的轮数也更少。预判依赖于更强大的网络,只有四个tpu和阿尔法戈·李的十分之一的计算能力可以达到更高的象棋能力。
阿尔法围棋大师的硬件、算法和训练细节从外界一直关注的阿尔法围棋硬件问题开始。具体来说,阿尔法戈·李在谷歌云上使用了大约50个tpu。有了这种计算能力,我们可以搜索50层,也就是说,我们可以对棋盘上每个可能的位置进行50步的预判。它每秒可以搜索100,000(十万)个位置。这听起来很多,但事实上,20年前,深蓝每秒可以搜索100,000,000个位置。因此,阿尔法戈比深蓝更聪明。它使用策略网络和价值网络,大大减少了搜索路径的数量。
让我们谈谈阿尔法戈的新版本。我们称之为阿尔法戈大师。这是目前最强的阿尔法战士,也是本次会议中的阿尔法战士。alphago master使用的算法比以前更有效,因此它只需要alphago lee版本计算量的十分之一。而且,训练阿尔法戈大师效率更高。
阿尔法戈大师运行在一台机器上(在会后采访中,媒体包括人工智能技术评论和银个人证实,它运行在一台计算机上,但包含四个tpu的),但它比阿尔法戈李和阿尔法戈球迷更强大的tpu。
为什么阿尔法戈大师如此强大?这背后的原因是我们用最好的数据来训练它。我们能得到的最好的数据不是来自人类,而是来自阿尔法戈本身。我们让阿尔法戈成为我们自己的老师。我们利用阿尔法戈强大的搜索能力自己生成数据,并利用生成的数据让下一代阿尔法戈学习。自学。
这样,我们培养的价值网络和战略网络就比以前的阿尔法戈更强大。让我详细介绍一下算法的细节。
首先,我们让阿尔法去和自己作对。这是基于强化学习,我们不再从人类象棋游戏中学习。阿尔法戈训练自己,并向自己学习。通过强化学习,它学会了如何提高。
在每一轮国际象棋比赛中,阿尔法戈都会进行一次全面的搜索,为倒下的人提出建议,也就是计划。当它选择这一步,执行它,并进入新的一轮,它将再次运行搜索,这仍然是基于战略网络和价值网络,以充分的火力,产生下一步的计划,等等,直到一盘棋的游戏结束。它将重复这个过程无数次,以产生大量的训练数据。然后,我们使用这些数据来训练新的神经网络。
首先,当alphago与自己下棋时,使用这些训练数据来训练新的策略网络。事实上,在alphago进行搜索并选择一个丢失的项目之前,这些是我们能得到的最高质量的数据。
接下来,让策略网络只使用它自己,不进行任何搜索,看看它是否能产生相同的解决方案。这里的想法是:让战略网络依靠自己,并试图计算出与整个阿尔法戈全火力搜索结果相同的解决方案。因此,这个策略网络比以前版本的alphago强大得多。
我们也以类似的方式训练价值网络。它使用最好的策略数据进行训练,这些数据来自完整版的alphago与自己下棋时的赢家数据。你可以想象,阿尔法戈和自己下了很多象棋。其中,最具代表性的棋类游戏被选为提取赢家的数据。因此,这些赢者数据是对象棋早期步法的高质量评价。
例如,在一场国际象棋比赛中,我们想知道第10轮的情况。我们做什么呢我们从头开始重新运行这个游戏,并发现最终黑方赢了。基于此,我们可以做出一个合理的猜测:黑方在第10轮占优势。
因此,您需要高质量的培训数据来培训价值网络。然后使用价值网络来预测哪一方将是这些象棋游戏中的赢家,在这些游戏中,alphago自己下棋。在这些数据中,在每一轮游戏中,我们让价值网络预测最终的赢家。
最后,我们重复这个过程很多次,最终得到一个全新的战略和价值网络。它们比旧版本强大得多。然后将新版本的战略和价值网络整合到alphago中,获得比以前更强大的新版本alphago。这导致更好的决策,更高质量的结果和数据在树搜索,回收,以获得新的和更强大的战略和价值网络,并再次导致更强大的阿尔法戈,这是不断改善。
最后,阿尔法戈表现如何?从Go的得分来看,禅宗和奇石软件的得分达到了2000左右,范辉版alphago的得分达到了近3000,李世石版alphago的得分提高了3分,达到了3500以上,alphago大师的得分提高了3分,达到了4500以上。
主旨演讲结束后,德米斯·哈萨比斯+大卫·西尔弗接受了包括雷锋在内的许多媒体采访。(公开号码:雷锋。人工智能技术评论。对于大家感兴趣的一些地方,请在此附上:
1.新版alphago不再需要向人类导师学习?
是的,它不再需要依赖外部导师了。现在我们希望它能朝着通用人工智能的敏捷化方向发展。
2.deepmind在围棋方面的成就是否已经应用到其他方向?deepmind在向其他方向扩展方面取得了哪些成就?
就具体应用而言,我们还处于应用的早期探索阶段,包括刚才发言中提到的新药开发等应用领域,这些应用领域都是行业内某项技术才使用的。
3.在你刚才的演讲中,你提到阿尔法戈在下棋的过程中已经开始有了类似人类的“直觉”。可以说它正在走向一个强大的人工智能阶段吗?意味着有自主感?
我认为应该说,在某一特定领域不断加强训练,只能说它在这个特定领域实现了这种直觉或自主意识,这与人类直接产生的自主意识不同。正因为如此,它不仅有机会应用于围棋领域,也有机会应用于其他领域。
4.你昨天提到的计算量相当于去年人机战争计算量的十分之一。你能说得更清楚些吗?
是的,我们昨天说它使用tpu,有十个处理单元,只占计算量的十分之一。这里,强调十分之一意味着功耗仅占前一个的十分之一,并且用于运行呼叫的资源仅占前一个的十分之一。
5.你提到阿尔法戈·李在谷歌云上使用了大约50个tpu。这一次,它的计算能力降低了十倍。使用了多少tpu?
使用一台机器,并且在该物理服务器上有4个tpu。
6.在昨天AlphaGo游戏的后半部分,它应该比以前花费更少的时间。你为什么保持一个恒定的速度,它后面设置了什么样的算法?
我们计算的每一步都是连续和稳定的,所以我们制定了一个等时间稳定策略来最大限度地利用时间,所以我们认为匀速是最好的。
7.为什么阿尔法戈在连续60场胜利中假装是60号大师赛的时候打败了柯杰,为什么它要举办这场公开比赛?
阿尔法戈首席研究员大卫·西尔弗的声明:
新版本的阿尔法戈已经被自己训练了数百万次,并且在检测旧版本的弱点方面表现良好。因此,新版本的阿尔法戈可以使旧版本的三个孩子。然而,当阿尔法戈与从未玩过的人类棋手对弈时,这种优势将不复存在,尤其是像柯杰这样的围棋大师,他可能会帮助我们发现阿尔法戈从未暴露过的新弱点。这些措施是无与伦比的。我们将拭目以待本周的第二场和第三场比赛。
新版本的alphago已经进行了数百万次的自我训练,并且已经学会了很好地利用以前版本的弱点。这就是为什么它在正面交锋中比老的自己强三倍。但是,当遇到阿尔法戈从未训练过的人类玩家时,这并不意味着什么——尤其是像杰克这样的大师,他能发现我们不知道的新弱点。这些尺度是不可比的。我们为本周的第二和第三场比赛感到兴奋!-阿尔法戈首席研究员大卫·西尔弗
雷锋。com独家报道了ai Technology的《平陆》,并拒绝在未经许可的情况下转载。
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:现场|David Silver原文演讲:揭秘新版AlphaGo算法和训练细节
地址:http://www.shwmhw.com/shxw/62152.html