本篇文章2438字,读完约6分钟
据《雷技术评论》报道:2017年国际激光雷达展将于4月24日至26日在法国土伦举行,届时《雷技术评论》的编辑也将赴法国进行一线报道。在这次深入学习会议之前,雷锋。com还将围绕会议议程和论文介绍推出一系列报道和专题报道,敬请期待。
尽管强化学习已经取得了很大的进步,但是仍然有两个关键的挑战。
一是在复杂动态的三维环境中,从原始感觉输入中实现感觉运动控制,从而实现从经验中直接学习;
另一个是获得可以灵活部署的通用技能,以完成大量动态目标任务。
因此,本文作者提出了一种感觉运动控制方法,旨在帮助学生克服强化学习的两大挑战。
以下是根据论文内容对雷(公开号:雷)的《人工智能科技评论》进行的部分编辑。
英特尔实验室的两位研究人员雷锋、多索夫斯基和科尔图姆提出了一种在沉浸式环境中实现感觉运动控制的方法。据报道,该方法有效地利用了高维感官流和低维测量流。
图1:网络结构。s代表图像数据,m代表测量值,g代表目标值。s、m、g、m和g首先分别通过三个输入模块进行处理。然后,这些输入模块的输出结果将被连接到联合表示j。此后,联合表示j被发送到两个并行计算流以进行独立处理,这两个并行计算流分别用于预测测量期望e(j)和归一化动作条件差。最后两个计算流的输出将被组合在一起,以获得每个动作的最终预测。
这些流的时间结构提供了丰富的监控信号,这使得通过与环境交互来训练运动控制模型成为可能。该模型由监督学习技术训练,但不使用外部监督。它从复杂的三维环境的原始感官输入中学习动作。该方案使得模型在训练过程中不需要设定固定的学习目标,并且可以在测试过程中探索动态变化的目标。
据报道,研究人员在经典的第一视角游戏——毁灭战士提供的三维模拟环境中做了大量的实验。实验结果表明,英特尔实验室提出的方法优于以前提出的其他复杂方法,在具有挑战性的任务中更为明显。实验结果还表明,训练后的模型对环境和目标具有良好的泛化能力。此外,用这种方法训练的模型还获得了视觉末日人工智能竞赛的全死亡竞赛径赛,该竞赛是在完全不熟悉模型的环境中进行的。
纸质结果显示
图2:展示了四个场景的例子。D1在一个正方形的房间里展示了一系列的医疗包(“基本的”)。D2展示了在迷宫中收集医药包和避免中毒(“导航”)。D3展示了在迷宫中收集医疗包和弹药,同时攻击敌人(“战斗”)。D4展示了如何在更复杂的迷宫中收集医疗包和弹药,同时攻击敌人(“战斗2”)。
图3:不同训练方法的表现。Dqn、a3c和dfp在基本场景中都取得了相似的性能结果。然而,dfp在其他三种情况下的性能结果要优于其他三种方法。在两个最复杂的场景(d3和d4)中,dfp的性能结果远远优于其他三种方法。
解放卢旺达民主力量对解放卢旺达民主力量委员会的最终决定发表评论
评价:本文详细介绍了作者在维兹多姆竞赛中的获胜方法。这是一种预测辅助变量的战略性强化学习方法,并使用内在动机。同时,这种方法也是通用成本函数的特例。事实上,这种方法是其他不同策略的集合,但它产生了令人印象深刻的实验结果,而且论文写得很清楚。
决定:接受(口头)
令人信服的经验推动结果
分数:7分:好论文,接受
评价:深度强化学习(在强化学习算法中使用深度神经网络进行函数逼近)在解决大规模空.状态下的强化学习问题方面取得了许多成功这种经验驱动的工作是基于这些方法。本文介绍了一种新的算法,该算法在新的三维环境下表现更好,能够获得更好的目标和环境之间的泛化能力。值得注意的是,这个算法是视觉末日人工智能竞赛的赢家。
(无标题)
得分:8分:在所有被接受的论文中排名前50%,并确认被接受
评价:本文提出了一种具有附加辅助内在变量的策略深度强化学习方法。
这种方法是基于一般成本函数法的一个特例,作者也在报价中标注了正确的参考。也许本文最大的技术贡献是改进了许多现有的方法来解决3d导航问题。我认为这篇论文的贡献应该在摘要中详细讨论。
我曾希望看到这种方法的失败模式。也就是说,在什么情况下模型会改变它的目标?因为这是一种战略方法,所以还有其他概念上的问题。例如,如果算法中的代理不重复训练过去的目标,就会出现灾难性的遗忘。
由于本文的主要贡献是整合了几个关键的想法并展示了经验的优势,所以我也希望看到其他领域的测试结果,比如雅达利(也许使用rom作为一个内在变量)。
总之,我认为这篇论文确实展示了使用所提出的潜在公式的明显的经验优势,并且这篇论文的实验见解可能对未来的机构研究有价值。
(无标题)
得分:8分:在所有被接受的论文中排名前50%,并确认被接受
评论:本文提出了一种预测未来内在测量的战略方法。所有的实验都是在这个名为毁灭的游戏中进行的。不同于对游戏输赢或游戏得分的一般预测,本文作者训练了一个模型来预测一系列三元组(健康、弹药、得分),这些三元组由作为输入提供的一系列“目标”三元组加权。改变目标三元组的权重是执行/指导探索的一种方式。在测试过程中,代理的行为只能通过最大化长期目标来实现。
这一结果令人印象深刻,因为该车型赢得了2016年的vizdoom竞赛。本文的实验部分似乎是合理的:
该实验包括将dfp与a3c和dqn方法进行比较,并试图将其与dsr方法(类似于kulkarni等人在2016年提出的方法)进行比较。在每个实验中,Dfp方法都优于(或至少等于)其他方法。
有一项消融研究可以证明所有“增加模型复杂性”的方法都是有效的。
预测内在动机(singh等人,2004),辅助变量和正向建模都是强化学习中具有良好研究成果的领域。我阅读的版本(12月4日修订)完全参考了之前的工作,尽管它还不是很全面。
我认为这篇文章应该被接受。有些人可能认为这篇论文的实验可以在不同的环境中进行或者它的新颖性是有限的,但我认为这篇“正确的”和“里程碑式的”论文应该发表。
雷锋编写的《通过学习预测未来来行动》。
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:英特尔通过预测变量实现策略性强化学习 夺冠 Doom 游戏竞赛
地址:http://www.shwmhw.com/shxw/60059.html