本篇文章5248字,读完约13分钟
《雷技术评论》:iclr 2017将于4月24日至26日在法国土伦举行,《雷技术评论》的编辑也将赴法国进行一线报道。期间,雷(公开号:雷)还将围绕会议议程和论文介绍展开一系列报道和专题报道,敬请期待。
目前,训练自然语言系统的主流方法是让它们接触大量的语言。这种被动学习方法在开发交互式机器(如会话代理)时存在许多问题。在iclr 2017大会上,angeliki lazaridou和其他研究人员在口头报告《多主体合作与(自然)语言的出现》中提出了一个基于多主体的语言学习框架。研究人员在参考游戏环境中研究这种学习方法。
在这些游戏中,发送者和接收者可以看到一组图像。发送者知道其中一个是目标,然后必须从固定的随机单词列表中发送消息。接收者将依靠这些信息来识别目标。因此,代理开发自己的通信语言来满足通信的需要。研究人员还表明,只有通过简单的结构,两个在线学习者才能在参考游戏中合作。他们还研究了如何改变游戏环境,在游戏中引入“词义”,从而更好地表达图片直观的语义属性。此外,研究人员还演示了一种将代理代码引入自然语言的简单方法。这些步骤对于开发能与人类有效沟通的机器是必要的。
以下是根据论文内容对《雷科技评论》的部分编辑。
本文介绍了多智能体协作通信博弈研究的第一步。这些游戏把代理放在一个简单的环境中,他们需要开发一种语言来相互协调并获得奖励。重要的是,这些代理在开始时是空·怀特,但是他们通过在游戏中的合作来发展和引导彼此的自然语言。
研究人员从使用语言的最基本挑战开始,也就是说,在双主体游戏的背景下参考事物。关注两个问题。首先,白板代理是否成功通信。其次,是什么样的环境特征导致了类似人类语言的代码的产生。后一个问题有两种评估方法。首先,代理是否将一般概念属性(如广泛的对象类别(而不是低级视觉属性))与他们学会使用的符号相关联。其次,研究了在网络实验中,代理人的“词汇使用”是否能被人类部分解释。此外,如何改变环境,使应急语言更容易理解。研究人员不仅强调环境(游戏设置)的重要性,还关注使用多个代理的更简单的环境,从而迫使他们独立地变得聪明。因此,研究人员将重点放在代理之间的合作,以促进学习和减少对注释数据的需求。
本文中使用的参考游戏的总体框架如下:它包括k个玩家、玩家必须执行的任务/游戏、使玩家能够相互通信的通信协议v以及作为功能性和明确目标分配给玩家的收入。
1.有一组由矢量表示的图像,从这组图像中随机抽取两幅图像,其中一幅被选为“目标”。
2.有两个玩家,一个发送者和一个接收者,他们看到图像,但是发送者可以接收输入,也就是说,清除目标。
3.有一个大小为k的词汇V,发送者选择一个符号发送给接收者。
4.接收者不知道目标,但看到发送者的符号,并试图猜测目标图像。
5.如果接收者猜对了目标,两个玩家的回报都是1,否则回报是0。
发送者和接收者都是简单的前馈网络。对于发送者,研究人员尝试了图1所示的两种架构。按照这个顺序,发送方架构将目标(在图1中用绿色正方形标记)和干扰表示作为输入,并隐式通知其中一个图像为目标(接收方以随机顺序看到两个图像)。
图1:代理播放器的体系结构
不可知的发送者是一个普通的神经网络,它将原始图像向量映射到“游戏特定的”嵌入空,然后是s形非线性,它将完全连接的权重应用到嵌入级联,以生成词汇符号的分数。
消息灵通的发送者首先将图像嵌入“仅限游戏”的空房间。然后将一维卷积作为不同的通道进行图像嵌入。知情发送者使用两个卷积来嵌入两个图像,随后是S形非线性。所获得的特征图被另一个过滤器组合以产生大量词汇符号。
对于受语言离散性驱动的发送者来说,研究者们已经意识到通信协议离散化的强大通信瓶颈。顶层(词汇)上的激活被转换成吉布斯分布(具有温度参数α),然后从获得的概率分布中采样单个符号S。接收器以随机顺序将目标和干扰图像向量作为输入,并将发送器生成的符号(作为词汇表上的热向量)作为输入。它将图像和符号嵌入自己的“游戏专用”空房间。然后计算符号和图像嵌入之间的点积。理想情况下,对于具有更好的符号表示的图像,点相似度应该更高。这两个点的结果被转换成吉布斯分布,并且接收器通过从获得的分布中采样将“点”指向图像。
研究人员设置了以下未经调整的超参数:嵌入维数:50,已知发送者用于嵌入的过滤器数量:20,吉布斯分布温度:10。两种词汇大小:10和100个符号。
实验结果理解新兴语义的一种方法是观察符号和它们所指的图像集之间的关系。图像中的物体被分为20大类。如果代理收敛到符号的更高语义,我们期望属于同一类别的对象将激活相同的符号。例如,当目标图像描绘刺刀和枪时,发送者将使用相同的符号来指代它们,而牛和枪不应该共享一个符号。
为了量化这一点,研究人员将目标图像包含符号时最频繁激活的对象分组,形成聚类。然后,通过测量其纯度来评估所获得的簇的质量。纯度是衡量集群“质量”的标准。将观察到的纯度与从分配给物体的符号的随机排列中获得的分数进行比较。表1显示,在所有情况下,纯度远非完美,但它明显高于机会。同时,可以确认知道的发送者比不知道的发送者产生更多的语义符号。
表1:1:50k训练赛后的测试结果。使用单词列显示在测试阶段至少生成一次的不同词汇符号的数量。与模拟的与观察到的符号使用相匹配的机会符号分配相比,所有的纯度值都是非常显著的(然而,可以看出,不同的发送器架构之间存在一些差异。图2(左)显示了作为前5000次训练的函数的测试集样本的性能。代理融合相当快,但是知情的发送者比未知的发送者到达更高的级别更快。
图2:左:作为训练迭代的函数,可以看到通知发送者比未知发送者收敛得更快。右:示例符号使用矩阵的频谱:前几个维度仅捕获部分方差,表明更多符号被知情发送者使用,而不仅仅是因为同义词。
理解新兴语义的一种方法是观察符号和它们所指的图像集之间的关系。图像中的物体被分为20大类。如果代理收敛到符号的更高语义,那么属于相同类别的对象将激活相同的符号。例如,当目标图像描绘刺刀和枪时,发送者将使用相同的符号来指代它们,而牛和枪不应该共享一个符号。
为了量化这一点,研究人员将目标图像包含符号时最频繁激活的对象分组,形成聚类。然后,通过测量其纯度来评估所获得的簇的质量。纯度是衡量集群“质量”的标准。将观察到的纯度与从分配给物体的符号的随机排列中获得的分数进行比较。表1显示,在所有情况下,纯度远非完美,但它明显高于机会。同时,可以确认知道的发送者比不知道的发送者产生更多的语义符号。
测试符号的使用是否反映了视觉空.之间的语义研究人员通过对数据集中所有类别图像的cnn fc表示进行平均,构建了每个对象的矢量表示。这些平均对象向量通过t-sne映射被映射到二维,并且发送者用于包含相应对象的图像的符号被颜色编码。图3(左)显示了当前实验的结果。可以看出,cnn空的近距离物体与相同的符号(相同的颜色)相关联。然而,仍然有相当多的变化。
图3:由通知发送者分配给它们的大多数符号进行颜色编码的对象的fc向量的t-sne图。显示随机子集的对象类名。左侧:表1第四行的配置。右侧:表2的第2行。
然后,研究人员转向一种简单的方法来调整游戏设置,以鼓励代理追求高级语义。也就是说,通过消除“常识”的某些方面,代理的使用被排除在外。例如,与输入图像细节相关的事实被删除,从而迫使代理使用更抽象的属性。表2显示了各种配置的结果。可以看出,代理仍然可以协调。在图3(右)中,当基于t-sne的视觉嵌入和在这个新实验中用于指代它们的单词之间的关系被重复时,这种效果更清楚。
表2:使用图像级目标玩参考游戏:50k训练后的测试结果。列于表1。所有纯度值都是由P-Agent通过监督图像标记任务交互开发的,在该任务中,发送者必须学习指定对象的传统名称。这样,发送者自然会被鼓励使用这些具有常规含义的名称,以便在玩游戏时区分目标图像,从而人类可以自然地解释代码语言。
监督目标对沟通成功没有负面影响:经过10k训练测试(相当于5k参考游戏测试),代理仍然可以完全协调。训练后,发送者使用的符号比以前的任何实验都多,符号纯度显著提高到70%(obs- opportunity纯度差异也提高到37%)。由于与标签的直接对应,许多符号现在变得可以直接解释。在调查了代码的可解释性后,研究人员发现68%的实验数据可以被人类正确解释。尽管远非完美,但可以发现,个体数据集的监督学习确实为与人交流提供了一些基础,这超出了监督阶段所学的常规词汇。
就质量而言,当发送者在他所拥有的单词和图像内容之间建立转喻联系时,发送者的主体之间的交流是成功的。图4示出了一个例子,其中发送者产生海豚来指示示出海洋的一部分和陆地的栅栏的图片。
图4:4:推荐游戏集合中的示例对,由发送者生成的单词。将图像目标定位为绿色。
结果证明,相当简单的神经网络代理可以在参与游戏中学会协调和交流。研究人员还获得了代理在设置中捕获的图像中描绘的对象的一般概念属性,而不是低级视觉属性。通过游戏和监督任务的结合,展示了自然语言的交流方式。
在未来的工作中,他们还想进一步研究如何确保紧急通信保持接近人类的自然语言。预测性学习应被视为主体的一个重要组成部分,重点是教给他们语言的结构特征(如词汇选择、语法或风格)。然而,学习语言的功能驱动方面也很重要,比如如何进行对话,而互动游戏是实现这一目标的一种富有成效的方式。
iclr委员会最终决定发表评论:作者展示了一些关于多种媒介的使用和与游戏相关的语言出现的初步结果。这种学习在加强和监督分类之间交替进行。优点:这是一篇相关而新颖的论文。缺点:这个实验有点简单/有限。
决定:接受(口头)
匿名审阅者1
评分:7分,优秀论文,合格
评论:我喜欢阅读,谢谢。
优点:本文解决了理解两个代理之间通信的一个关键问题。随着越来越多的强化学习应用的发展,这种方法把我们带回了一个基本问题:机器的问题解决方法与人类的相似。
这个任务很简单,所以可以使学习后的分析更加直观。
有趣的是,知情的代理如何使用多个符号来传输消息,但不可知的代理仅依赖两个符号。
缺点:如果两个发送的图像来自不同的类别,任务实际上归结为图像分类。所使用的符号实际上是学习分配给任何图像的图像类的第二个代理。无论如何,这种方法归结为迁移学习的问题,它可能比强化学习算法训练得更快。
匿名审阅者2
评分:7分,优秀论文,合格
评论:通过在交互式参考交流游戏中放置多个代理来训练自然语言系统是非常好的。正如作者所说,过去有些人(虽然似乎不多)使用多代理游戏来教授交流,但这似乎是一个值得追求的方向。此外,在这些游戏和一些监督学习之间切换的方法似乎很有成效。
注意:为了“清晰起见”,我认为图1中的一些网络连接被省略了。然而,考虑到相当高度定制的体系结构和第3部分中稍微有些困难的描述,简化的图表只会增加混乱。地图可能需要微调,但至少(特别是如果我弄错了!),您必须添加一个标题来帮助读者解释此图片。
总的来说,这个架构是非常好的,它在各个方面似乎都非常有效/有用,并且结果是合理的。我希望这项工作会有一些有趣的变化。
值得注意的是,虽然我确信我已经理解了这篇论文,但我认为我并不十分熟悉最密切相关的文献,因此无法准确地评估这部作品在这方面的地位。
匿名评论者3
评分:7分,优秀论文,合格
评论:在本文中,参考博弈是在两个代理中提出的。两名特工观察了两幅图像。被称为发送方的第一个代理接收二进制目标变量(t),并且必须向被称为接收方的第二个代理发送一个符号(消息),以便该代理能够识别目标。如果接收方代理能够准确预测目标,两个代理都将获得奖励。该文将智能体参数化为神经网络,将图像的预训练表征为特征向量,并采用强化训练。在这种设置下,显示代理收敛到最佳策略,并且他们学习的通信(例如,从发送者发送到接收者的符号代码)具有一些有意义的概念。此外,本文还介绍了基于不同图像类的游戏变体实验。在这种情况下,代理似乎学到了更有意义的概念。最后,提出了一种多游戏设置,其中发送者代理在首先玩游戏和执行监督学习任务(分类图像)之间交替。毫不奇怪,当锚定在监督学习任务时,符号交流有一个更有意义的概念。
在多智能体环境中学习共享通信表达是一个有趣的研究方向。与标准的监督学习或单智能体强化学习任务相比,这是一项艰巨的任务,从一个相对简单的任务开始是有意义的。据我所知,先学习两个代理人之间的交流,然后将这种交流转化为人类语言是很新奇的。正如作者所说,这可能是标准的序列到序列模型的另一个例子,该模型倾向于关注语言的统计特征而不是其功能。我认为,所提议的任务和框架的贡献,以及对交流的分析和可视化,是未来工作的有用的垫脚石。因此,我认为论文应该被接受。
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:让智能体合作 谷歌团队提出自然语言的产生方法
地址:http://www.shwmhw.com/shxw/60260.html