CMU提出新型内在驱动学习方法，在复杂计算下效率优于强化学习-搜狐微门户

本篇文章897字，读完约2分钟

最近，cmu发表了一篇新的论文，作者sainbayar sukhbaatar、ilya kostrikov、arthur szlam和rob fergus提出了一种新的学习方法，即内在驱动学习或异步自我学习。本文介绍了这种学习方法的优点，并与反向学习方法进行了比较，表明在复杂计算中，内驱学习的效率与反向学习方法相当或更高。本文简要介绍了这种创新方法的原理。

内在驾驶学习的原理非常简单易懂，如下图所示:

在本文中，使用了同一个代理的两个不同版本，并以爱丽丝和鲍勃的名字命名。通过爱丽丝和鲍勃的对抗学习，代理可以实现环境认知的无监督学习。

这种学习方法的实现简单概括如下:爱丽丝提出了鲍勃需要实现的任务；让鲍勃完成任务。特别是，这种机制侧重于回退(或近似回退)环境，这意味着环境状态允许重置，爱丽丝将“提议”任务，任务将通过几个步骤完成。

然后，鲍勃会后退几步，或者重复爱丽丝在某种意义上做的事情。

雷锋。com了解到，alice和bob将通过适当的奖励机制自动生成一个环境探索课程，从而实现代理的无监督学习。

例如，图中的例子介绍了在mazebase任务中实现的自主学习。爱丽丝提出了鲍勃必须完成的任务。

在这张照片中，爱丽丝首先拿起钥匙，打开门，穿过大门，然后关灯，从而进入停止状态。

此时，代理由鲍勃控制。鲍勃需要将环境恢复到原始状态，以便获得内部奖励。因此，鲍勃必须打开灯，穿过大门，放下钥匙，然后回到爱丽丝的开始状态。

这个过程要求鲍勃学习环境中所有变量的作用。此外，例子中的钥匙、门、灯及其顺序只是爱丽丝可以设计的许多任务之一。

根据内在驾驶学习的原理，爱丽丝可以自动生成难度越来越大的任务。通过对这些任务的训练，鲍勃可以逐步而迅速地完成学习。当鲍勃收到一个新任务时，比如路上有一面旗帜，他可以很快完成任务并获得外部奖励，因为鲍勃已经在《完全理解》中看到了环境。

当使用rl任务对这种新方法进行实验时，本文介绍了内在驱动学习可以大大减少要学习的内容。

原始链接:arxiv/pdf/1703.05407.pdf，由雷锋编辑。

来源：搜狐微门户

标题：CMU提出新型内在驱动学习方法，在复杂计算下效率优于强化学习

地址：http://www.shwmhw.com/shxw/60589.html

CMU提出新型内在驱动学习方法，在复杂计算下效率优于强化学习

相关推荐

矩尺座伽马流星雨14日光临地球

报考一级消防工程师需要什么具备什么条件？一级消防工程师一年可以考几次

举步维艰：美国政府拟设立法案禁止与华为进行合作

马云：如果没有电商格力美的海尔的股价会很难看

seo首页技术（seo在线优化技术）

补贴收紧加速行业洗牌　比亚迪业绩暴跌转型成后市关键

欧盟考虑禁止公共场所使用人脸识别技术！A股安防龙头会受影响吗？

人机大战在医疗领域上演 “AI新手”完胜“资深大脑”

App界“富豪榜”揭晓！三七互娱跻身全球发行52强

华为游戏产品月活用户数约4000万 MMO类产品最赚钱

本月热文

阿里云账号代购，阿里云购买相同配置的实例

挑选太仓SMT智能料架公司，绝不踩雷的方法！_佰斯特POUSTO

win10全屏优化会让游戏卡吗_win10全屏优化会让游戏卡吗

阿里云国际服务器购买，阿里云国际代理商

国际版阿里云/腾讯云：免费账号：运用邮箱注册的账号、充值教程

加盟儿童美术教育的投资人要符合哪些条件呢

win10优化开机启动项_win10如何优化开机启动项

win7运行速度提高90pedit_

win10自带清理软件_win10清理软件哪个好

阿里云国际账号24h自助充，阿里云服务器购买

最新发布

wf展会2022上海_wf展会2022上海延期

ween是什么牌子_ween是什么牌子衣服

ween是什么公司_WeEn是什么公司

电厂工地洗车机是如何进行水循环使用的？

web问如何优化网站_web网页优化

保持防静电贯通式货架高效安全的秘诀_佰斯特POUSTO

阿里云服务器购买，阿里云账号免实名注册

阿里云国际服务器购买，阿里云免实名注册

阿里云国际账号免实名注册，阿里云服务器购买

阿里云国际账号注册，阿里云服务器购买，阿里云24h小时自助充

网站简介