本篇文章3007字,读完约8分钟
雷锋。这篇文章是从中国计算机联合会官方公开号中国计算机联合会和雷锋转来的。(公开号码:雷锋。com)已被内容授权。
5月23日,阿尔法围棋2.0版在人机围棋赛中以1/4的微弱优势击败了柯杰,这一方面继续显示了人工智能的实力,同时也给了人们对阿尔法围棋和人工智能的新认识。先说出结论,然后看分析。
1.阿尔法戈在围棋方面领先于人类,但它并没有完全征服围棋。它只能通过深入学习找到比人类认知更好的解决方案,但它不是最佳解决方案。即使地球上所有的资源都耗尽了,也找不到最佳的解决办法。从专业角度来看,这是一种在强化学习中使用深度学习来逼近价值判断函数,然后将其与蒙特卡罗搜索树相结合的方法(详情请参考JUNG Woo:A Graphic alphago Principle and弱点,此处不再重复)。由于人工智能和人类都无法找到最佳解决方案,现在说哪一方完全失败还为时过早。
2.人类也在进步,我们不应该低估快速(小样本)学习的后天能力,这是阿尔法戈基于目前的学习方法无法做到的。从短期来看,人们获胜的机会很小,但从长期来看(未来5-10年),因为人们也有很强的学习能力,可以很快从与阿尔法戈的少量象棋游戏中学习。即使alphago1拥有1亿套象棋,并且增加了10,000个GPU,如果它仍然基于现有的学习系统,它的进度最终将会减慢,因为与2x10171搜索空.相比,新增加的象棋和计算资源只是沧海一粟我们对人脑的理解远不如围棋,还有许多未知的东西。
3.目前,人类职业棋手和阿尔法戈之间的差距是在一个目标水平上,这并不像大家想象的那么大。事实上,这种发帖目的的差距(按照中国的标准,7眼半)对于职业棋手来说已经是一个很大的差距了。许多职业大师在进入不朽阶段后,发现自己仍然落后7-8目,他们会主动认输。在许多比赛中,输赢通常在1到2只眼睛之间(例如,柯捷输给阿尔法戈半只眼睛)。否则,你会被其他职业球员嘲笑,你不知道你落后了多少,你的能力太弱了。
为了客观、准确地看待这个问题,迫切需要有很强的人工智能专业知识,同时也要有一定的围棋知识。让我们先纠正一些对网络认知的误解:
神话# 1:阿尔法戈可以制造4个顶级玩家,阿尔法戈2.0在以前的版本中可以制造4-5个玩家。
为了消除这种误解,我们必须首先向所有人普及围棋知识:围棋中的“互赠两个孩子”和“互赢两个孩子”有很大的区别。我不需要对玩围棋的人说太多,但是今天我意识到许多吃瓜的人总是认为这是一回事。难怪上面的假话会在网上流传。
让另一方有两个孩子:让两个孩子进去意味着让一方先把两个棋子放在棋盘上(棋子只能放在星星上),然后另一方开始走。这两个孩子在游戏开始时很有价值。对于职业棋手来说,每个棋子的价值至少为10目或更多(这是最保守的估计)。让两个儿子出去至少相当于先让出彼此的20多个网站。因为棋盘是有限的,如果在接下来的游戏中你不能在有限的空时间内赢回20个以上的物品,那将是失败的。而且,受让人的数量越多,受让人获得的价值不仅会线性增加,因为子力量之间的合作将会形成,以获得更大的利益。例如,如果你让四个儿子,他们的价值可能远远超过40目。
以两个孩子的优势赢得对手:这意味着在双方比赛后,获胜一方比失败一方多两个孩子。如果你按照吃饭和生活的方法计算对方的两个项目,那两个项目就只相当于四个项目。阿尔法戈赢了1/4的柯杰,这相当于一枚半眼棋子。
因此,“给对方两个孩子”和“赢对方两个孩子”不能在同一年说。如果真的存在围棋之神(因为他能找到最好的解决方案,我们没有失去他的希望),大多数顶级职业棋手认为他们和这个神之间的差距是让2-3个孩子。因为阿尔法戈可以被证明无法找到最佳解决方案,它仍然远离上帝。因此,说阿尔法戈可以成为四名顶级玩家只是一个神话。
神话2:阿尔法戈也制造了一些明显的坏把戏,因为他在自我判断方面更胜一筹,并且放松了自己的要求。
Alphago的搜索策略是优先对获胜概率较高的分支机构进行更深入的搜索,这一策略在任何时候都不会改变。他不会觉得自己有优势,所以他会放慢速度。当玩得不好时,是因为它的价值判断是近似的,对空的搜索不能穷尽,也不能得到最优解。因此,有时被认为是好的棋可能不是最好的棋,阿尔法戈处于如此不稳定的局面是正常的。这也是人类生存的希望。当然,人类也有自己的弱点,如疲劳、情绪波动等。,人们也会在判断上犯错误。此外,国际象棋游戏非常长,一些以前不太好的国际象棋游戏在后来的变化(包括意想不到的变化)后可能会变好。因此,不是所有的错误都会直接影响比赛的结果。现在每个人似乎都有点害怕阿尔法戈。即使阿尔法戈玩了一个糟糕的游戏,每个人都更加怀疑自己的水平(难道我们不明白吗?),并选择相信阿尔法戈的“远见”。
神话3:阿尔法戈可以不断地从自己身上学习,从新的国际象棋游戏中获得经验,并迅速提升自己。
阿尔法戈的系统需要大量的数据来训练,因为它的参数很多,而且新增加的棋谱对提高它的棋力没有影响。此外,alphago在调整参数时针对大量数据进行了优化,而且它还必须成批处理大量象棋分数。培训时间很长,不可能在短时间内大幅度提高自身水平。即使同一组训练棋得分不同,不同的参数调整方法也会训练出具有不同棋力水平的系统。事实上,alphago通过自我游戏生成了大量的国际象棋分数,然后利用国际象棋分数中(两个连续的)圆盘与最终结果之间的对应关系来训练价值网络。在这里,我们只借用强化学习的框架来训练深层神经网络的参数,主要贡献是深层学习的近似能力(解决了传统强化学习对于复杂环境和动作状态无法解决的问题)。因此,阿尔法戈没有能力通过自我游戏不断进步。
神话4:阿尔法戈会故意放水输掉比赛。
这是不可能的。如果你想输,你不能如此丑陋和明显。这是一件非常困难的事情,甚至可能比赢得国际象棋更难。在模型经过训练后,alphago可以暂时只改变搜索部分(搜索大小的空房间)的资源投入量。减少量太小,几乎不会改变太多,但是如果减少量太多,就会下一些非常低级的棋。从技术角度来看,这很难理解。
误区五:计算机必须比人类有更好的计算能力,所以不要和阿尔法戈相比,简化情况,避免复杂的战斗。
Alphago依靠基于树的搜索算法。当遇到复杂的情况时,搜索空变得更大,并且将变得难以判断未来的输赢价值。因此,人们无法计算的复杂情况对阿尔法戈来说也非常困难。如果情况太简单,机器可以很好地计算出一个更好的解,而人类棋手就更没有希望了。因此,只有使情况复杂化,人类棋手才有希望获胜,尽管这给人类带来了更大的挑战。
摘要
基于目前对围棋的理解,它在现阶段仍将被人工智能所遗忘。我认为柯杰没有任何希望赢得接下来的比赛,但是人类也在进步。通过与阿尔法戈对抗,人类也在重新理解戈。只要人类的思想和文明不断进步,人们就有可能在未来5-10年内通过不断的学习赶上当前的阿尔法。当然,阿尔法戈会取得进步,但它不是上帝的围棋,也没有克服围棋的难题。如果现有的学习方法没有完全创新,他们的进步将会缓慢。基于这种考虑,人类仍有机会。当人们对围棋有了更深的理解,他们就会设计出更好的人工智能算法。事实上,它们并不矛盾,它们相互补充,相互促进。无论输赢,都是人类文明和进步的体现。人类智能将永远领先于机器,不会被机器所取代。
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:微软亚洲研究院郑宇:AlphaGo并未攻克围棋难题,人类仍有希望
地址:http://www.shwmhw.com/shxw/62063.html