本篇文章897字,读完约2分钟
最近,cmu发表了一篇新的论文,作者sainbayar sukhbaatar、ilya kostrikov、arthur szlam和rob fergus提出了一种新的学习方法,即内在驱动学习或异步自我学习。本文介绍了这种学习方法的优点,并与反向学习方法进行了比较,表明在复杂计算中,内驱学习的效率与反向学习方法相当或更高。本文简要介绍了这种创新方法的原理。
内在驾驶学习的原理非常简单易懂,如下图所示:
在本文中,使用了同一个代理的两个不同版本,并以爱丽丝和鲍勃的名字命名。通过爱丽丝和鲍勃的对抗学习,代理可以实现环境认知的无监督学习。
这种学习方法的实现简单概括如下:爱丽丝提出了鲍勃需要实现的任务;让鲍勃完成任务。特别是,这种机制侧重于回退(或近似回退)环境,这意味着环境状态允许重置,爱丽丝将“提议”任务,任务将通过几个步骤完成。
然后,鲍勃会后退几步,或者重复爱丽丝在某种意义上做的事情。
雷锋。com了解到,alice和bob将通过适当的奖励机制自动生成一个环境探索课程,从而实现代理的无监督学习。
例如,图中的例子介绍了在mazebase任务中实现的自主学习。爱丽丝提出了鲍勃必须完成的任务。
在这张照片中,爱丽丝首先拿起钥匙,打开门,穿过大门,然后关灯,从而进入停止状态。
此时,代理由鲍勃控制。鲍勃需要将环境恢复到原始状态,以便获得内部奖励。因此,鲍勃必须打开灯,穿过大门,放下钥匙,然后回到爱丽丝的开始状态。
这个过程要求鲍勃学习环境中所有变量的作用。此外,例子中的钥匙、门、灯及其顺序只是爱丽丝可以设计的许多任务之一。
根据内在驾驶学习的原理,爱丽丝可以自动生成难度越来越大的任务。通过对这些任务的训练,鲍勃可以逐步而迅速地完成学习。当鲍勃收到一个新任务时,比如路上有一面旗帜,他可以很快完成任务并获得外部奖励,因为鲍勃已经在《完全理解》中看到了环境。
当使用rl任务对这种新方法进行实验时,本文介绍了内在驱动学习可以大大减少要学习的内容。
原始链接:arxiv/pdf/1703.05407.pdf,由雷锋编辑。
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
来源:搜狐微门户
标题:CMU提出新型内在驱动学习方法,在复杂计算下效率优于强化学习
地址:http://www.shwmhw.com/shxw/60589.html