只需1 (只需12个简单的步骤)

文章编号：46403 资讯动态 2024-12-10 高阳 EfficientZero RL模型清华叉院助理教授

只需1/数据便可掌握Atari游戏！清华叉院助理提出小数据RL模型，引爆AI社区

EfficientZero的性能接近 DQN（Deep Q-Learning）在 2 亿帧时的性能，但消耗的数据却减少 500 倍。

近日，一项研究在学术界引起了广泛的关注和热议。有消息称，Deep Mind和Google已经在内部关门开会讨论了。粉丝众多的科技向youtube博主Yannic kicher甚至专门做了半个小时的视频来讲解这篇论文。学者们更是用“completely game- changing”、“major development in RL”、“this is impressive”来形它。其团队老师本人也在推特上表示：在使用相同数据的情况下，这是RL智能体第一次直接从像素中获得了超越人类的性能！这会让通用强化学习更接近真实世界的场景，比如机器人的采样效率会是关注重点。

只需1/数据便可掌握Atari游戏！清华叉院助理提出小数据RL模型，引爆AI社区

现在，就让我们隆重的介绍下本文的主角—— EfficientZero 。

EfficientZero算法是在清华大学交叉信息研究院高阳团队的新研究《使用有限数据掌控Atari游戏》（ Mastering Atari Games with Limited>EfficientZero的性能接近DQN（Deep Q-Learning）在 2 亿帧时的性能，但消耗的数据却减少了500 倍！它能够在贴近现实复杂情况的Atari（雅达利）游戏中，从零训练并只需两个小时，就可达到同等条件下人类平均水平的190.4%，或116.0%的中值性能。

只需1/数据便可掌握Atari游戏！清华叉院助理提出小数据RL模型，引爆AI社区

样本效率一直是强化学习中最“令人头疼”的挑战，重要的方法需要数百万(甚至数十亿)环境步骤来训练。一种从MuZero模型改进而来的高效视觉RL算法—— EfficientZero，该模型从零开始训练，最终在Atari中仅用两个小时的训练数据上就超过了经过相同条件下的的人类平均水平。

MuZero是通过将基于树的搜索与经过学习的模型相结合，可以在一系列具有挑战性和视觉复杂的领域中，无需了解基本的动态变化即可实现出色性能。AI科技评论在以往的文章中对MuZero有过报道： DeepMind又出大招！新算法MuZero登顶Nature，AI离人类规划又近了一步。那为什么会选择Atari游戏呢？Atari 游戏场景繁多，规则各异，一定程度上贴合现实复杂环境，因此长期被当作验证强化学习算法在多因素环境下的性能测试标准。EfficientZero的低样本复杂度和高性能可以使强化学习更接近现实世界的适用性。

只需1/数据便可掌握Atari游戏！清华叉院助理提出小数据RL模型，引爆AI社区

如图所示，EfficientZero在人类平均标准得分中位数上分别比之前的SoTA性能出色170%和180%。是第一个在Atari 100k基准上优于人类平均性能的算法。

强化学习在挑战性的问题上取得了巨大的成功。如2015年DeepMind研发的DQN网络、击败了中国围棋世界冠军柯洁的AlphaGo、和会在Dota2中打团战的OpenAI Five等等。但这些都是站在巨大数据量的“肩膀上”训练出来的策略。像AlphaZero从国际象棋小白到顶尖高手需要完成2100万场比赛，一个职业棋手每天大约只能完成5场比赛，这意味着人类棋手要11500年才能拥有相同的经验值。

在模拟和游戏中应用RL算法，样本复杂性不成阻碍。当涉及到现实生活中的问题时，例如机器人操作、医疗保健和广告推荐系统，在保持低样本复杂性的同时实现高性能是能否可行的至关钥匙。

过去几年，我们在样本高效强化学习上已有许多成绩。来自真实环境的数据和来自模型的“想象数据”都可以训练策略。但大多数成功都是在基于状态的环境中。比如在基于图像的环境中，鱼和熊掌不可兼的情况比比皆是，MuZero和 Dreamer V2展示了超越人类的表现，但样本效率不高；SimPLe等其他方法非常有效，但性能较差。最近，在数据高效机制中，中数据增强和自监督方法应用无模型方法取得一定成功。然而，却依然达不到人类预期的水准。

为了提高样本效率并保持优越的性能，自监督环境模型、减轻模型复合误差的机制和纠正非策略问题的方法这三点对基于模型的视觉RL智能体至关重要。EfficientZero在MuZero的基础上，对这三点进行了改进：“利用时序预测一致性 (temporal contrastive consistency)，减少预测回报的不确定性 (aleatory uncertainty) 以及纠正离线策略价值的偏移 (off-policy correction)。”

在对DeepMind Control (DMControl)套件的模拟机器人环境进行的实验中，EfficientZero实现了最先进的性能，优于直接从真实状态中学习的模型state SAC，这进一步验证了EfficientZero的有效性。被有限数据“扼住”深度强化学习算法“喉咙”的时代也许不会再有了。

高阳：博士，清华大学交叉信息研究院助理教授。博士毕业于美国加州大学伯克利分校，本科毕业于清华大学计算机系。主要研究计算机视觉与机器人学。

只需1/数据便可掌握Atari游戏！清华叉院助理提出小数据RL模型，引爆AI社区

原创文章，未经授权禁止转载。详情见转载须知。

只需1/数据便可掌握Atari游戏！清华叉院助理提出小数据RL模型，引爆AI社区

谷普下载提醒您

本文链接：http://www.gpxz.com/article/7f785a811db59f0322b8.html

上一篇：中非共和国采用比特币作为法定货币使人困惑

下一篇：35万的车一点都不贵；雷军称小米汽车50万以内

当当网

全球领先的综合性网上购物中心。超过100万种商品在线热销！图书、童书、绘本、中小学教辅、文学小说、音像、母婴、家居、服装、鞋包等几十大类，正版保证，低至2折（自营图书满49元免运费。当当网一贯秉承提升顾客体验的承诺，自助退换货便捷又放心）

小说阅读 2024-01-14 20:38:33

零距离汽配询价系统

电影视频 2024-07-02 12:14:13

地铁跑酷下载2024安卓最新版

【豌豆荚】为你提供地铁跑酷APP安卓版下载，历史版本、旧版下载，查看2024最新地铁跑酷手机版介绍、应用截图、网友评论，方便快捷的将安卓版地铁跑酷应用免费下载到手机。

网络应用 2024-08-16 22:34:12

真空回流焊

『设备厂家』深圳市邦企创源科技有限公司、专注真空回流焊炉研发生产『现货价格』真空回流焊机与真空焊接炉、真空共晶炉与真空烧结炉设备『非标订制』真空热压焊接首选

科技创新 2024-08-17 23:53:15

吴江教育信息网

行业信息 2024-07-11 13:47:02

舞阳拖鞋网

舞阳拖鞋网服务于南阳市１３个县，以拖鞋为主，鞋子品种有1００多种，服务人员3０余名。最舒适的感觉，最健康的产品是我们的服务宗旨。中原家居拖鞋网服务于南阳市１３个县，以拖鞋为主，鞋子品种有1００多种，服务人员3０余名。最舒适的感觉，最健康的产品是我们的服务宗旨。中原家居拖鞋网服务于南阳市１３个县，以拖鞋为主，鞋子品种有1００多种，服务人员3０余名。

商业服务 2024-08-18 12:59:26

汽车内饰改装/修复/翻新培训学校

极致汽车美容培训学校，专注汽车内饰修复,汽车内饰养护,汽车内饰改装、翻新、改色培训学校。详情咨询：15266171118

管理咨询 2024-11-13 04:13:07

大翰进出口贸易有限公司,缝纫机,缝制设备,缝制零配件

大翰缝纫机,缝制零配件,进出口,贸易公司

贸易批发 2024-11-13 08:20:37

亿控电子

深圳市亿控电子创立于2009年初，主要为电子核心元件代理业务，凭着诚信经营，拼搏开拓的精神，陆续取得了国内外电子元器件品牌的代理授权。

企业品牌 2024-11-17 02:33:03

天津手机号码在线选号

天津手机号码在线选号，天津手机靓号免费申请、天津手机卡选号大厅、电话卡网上申请办理。天津移动、联通、电信无限流量卡、腾讯大王卡、阿里宝卡、移动大王卡，电信星卡申请办理官方入口，打造号码行业生态系统。

手机软件 2024-11-17 08:12:32

巨有科技一机旅游

广州巨有科技有限公司专注提供全域旅游智慧化服务运营解决方案，通过全域旅游赋能多产业端融合，提供整合运营体系，形成智慧化服务闭环，为旅游目的地实现全域资源协同化、数字化、智慧化运营服务，未来依托全域旅游商业数据，运用算法实现旅游要素智慧化整体解决方案。

手机软件 2024-11-26 20:41:55

防火板「厂家批发」防火地板,砂光板,玻镁防火板

苏州华起板业科技有限公司专业从事防火板、防火地板、砂光板、玻镁防火板等产品的生产销售批发，欢迎大家来电咨询合作哦！

管理咨询 2024-11-28 19:34:01

Google要一统江湖高度碎片化的移动VR (google.com)

移动VR有多少个版本，你可能数都数不过来，下图是某VR内容聚合平台的app截屏，可以看到在设备选择中就有数十款VR手机盒子可选，而且这还只是手机盒子类的产品，目前还有大量的VR一体机正在涌现，这么多厂商，几乎每一家都希望打造自己的平台，可见移动VR的碎片化有多严重，好在Google可能正着手解决这个问题，根据之前的泄漏的消息，在即将举...。

2024-12-09 18:52:37

人工智能 (人工智能培训机构)

微软人工智能公开课概览，雷锋网公开课Video，张奕，人工智能在消费级视频场景中的应用丨雷锋网公开课，附PPT，清华大学博士生涂锋斌，设计神经网络硬件架构时，我们在思考些什么，下，雷锋网公开课总结清华大学博士生涂锋斌，设计神经网络硬件架构时，我们在思考些什么，上，雷锋网公开课总结微软亚洲研究院秦涛，对偶学习的对称之美，雷锋网...。

2024-11-30 17:39:09

在找靓机上购置到了一个表明测验无误实践摄像头部件有疑问不可修复的平板 (在找靓机上购物可靠吗)

申明，1.以上内容仅代表揭发者自己，不代表黑猫揭发立场，2.未经授权，本平台案例制止任何转载，违者将被清查法律责任，3.黑猫揭发处置揭发不收取任何费用，凡以黑猫揭发名义不要钱的均为混充、诈骗行为，请及时报警并与黑猫官网反应，揭发邮箱heimaotousu@vip.sina.com，4.请大家选用官网渠道处置生产纠纷，不要轻信第三方机构...。

2024-07-17 17:13:12

罗志祥的详细资料 (罗志祥的详细资料介绍)

本名，罗志祥英文名，Alan生日，1979年7月30日绰号，小猪血型，A星座，狮子座生肖，羊身高，180公分体重，70公斤搜集东西，香水、帽子、手机休闲嗜好，打蓝球、游泳特意专长，打鼓、跳舞、唱歌、跳水、编舞共性，超级外向，青睐想事件座右铭，掌握每一个小小的时机行动禅，敢爱就去爱青睐的事，跳舞、买衣服、逛街厌恶的事，被责骂、被误解青睐...。

2024-07-10 08:05:36

巨蟹男和金牛女吵架离别能否言归于好 (巨蟹男和金牛女)

即使是一面镜子碎了以后，从新粘上还是会碎过的痕迹，更何况是两团体之间的感情分裂，假设再度选用在一同，也无法能做到全心的接管，倘若巨蟹男和金牛女这一星座配对离别后，能否言归于好，还是注定永远离开！奇点星座网原创，转载请注明起源，金牛座的性情向来是淳厚诚恳，关于自己认定的事件她们素来都不会被外界的起因坚定，所以一旦是选择和恋人离别，她们就...。

2024-07-09 23:24:19

汽车油耗怎样算 (汽车油耗怎样计算公式)

1、油耗*100=61升百公里，即每百公里油耗为61升节油汽车有一种相对准确的方法可以计算油耗快点，跳枪，把里程表归零第二次加油还是加到跳炮上，而后把加油量除以里程表的里程就获取油耗之后，根，2、1闲余计算方法所耗油量=133升油耗*100=61升百公里，即每百公里油耗为61升有一个相对比拟准确计算油耗方法加油至跳枪，将里程表回零，第...。

2024-07-07 08:53:08

华泰宝利格汽油1.8t手动版还烧防冻液烧机油排气筒冒浓烟 (华泰宝利格汽车报价及图片)

关于华泰宝利格汽油1.8t手动版的排气筒冒浓烟、烧机油及防冻液暴露疑问，您须要关注以下几个或者的要素并启动相应的审核与培修，1.审核涡轮增压器和气门油封有或者是涡轮增压器产生缺点或气门油封老化，造成机油进入熄灭室，构成浓烟，倡导您尽快带车到专业的汽车培修店启动具体审核和必要的培修，2.审核活塞环活塞环假设对齐不正确，也或者形成机油进入...。

2024-07-07 02:07:59

二手叉车多少钱是多少 (二手叉车多少钱一辆价格表)

二手叉车要看车的年代，成色，发起机好坏，多少钱很难说，国产品牌2，3万的，3，4万的不必定，首先，你必需懂得叉车，判别叉车的成色和各项性能，及以后还能经常使用的年限，而后，你要求懂得二手叉车的普通开售多少钱，最后，您回收的多少钱必要求比二手叉车的开售多少钱低了2013年九成新二手合力4，5吨叉车，多少钱可以买，跪求答案，全新合力4，5...。

2024-07-02 15:26:02

电影第九区难看吗是什么类型的电影 (电影第九区难看不)

属于科幻类，如同是斯皮尔伯格监制，电影是团体的口味，好不难看视人而定，介绍一个观看地址，自己看看就知道了，东坡影院，数万部电影电视在线观看，看完，第九区，大家想说什么呢从头到尾咱们可以发现，片中的外星人都是以一种自愿甚至残酷的形态生存在集中营普通的第九区，感化的变异基因的记者从开局变异到最后的生死关头，协助他的不是咱们人类，而是他们，...。

2024-07-01 15:31:05

明日之后新手玩家怎么玩,明日之后手游攻略

《明日之后》是网易金牌研发团队历时三年打造的病毒末世下的人类生存手游。在采集、砍树、采矿、打猎获得基本资源后，玩家可用来烹饪食物、制作武器和防具等等生存所需要的物品。游戏内有昼夜变化，在寒冷的夜里，你必须待在篝火旁、或在安全屋坐下、或手持火把才可以避免冻伤。

2023-11-17 02:26:09

羞羞嗒嗒让你欢乐的创意短视频

短视频的重要性短视频在当今社会发挥着越来越重要的作用，它不仅提供了一种新的娱乐方式，也是当今社会沟通的重要工具。短视频的发展，极大地拓宽了人们的视野，让人们可以更好地了

2023-09-19 02:21:09

unitywebplayer下载-UnityWebPlayer(Unity网络播放器)下载v5.3.8.0官方最新版-

UnityWebPlayer(Unity网络播放器),UnityWebPlayer是一款浏览器扩展插件，允许你在浏览器中直接播放使用Unity技术编制的3D内容。支持自动更新。一些3D网页游戏需要安装UnityWebPlayer方可运行。有需要的赶快下载吧！,您可以免费下载。

2023-08-11 23:41:17

文章推荐

头疗馆加盟就选头道汤如何正确的选择品牌加盟 (头疗馆加盟就业怎么样)

头疗养发，是近几年新兴的一个项目，在社会大环境的迫压下，人们生活环境差，工作压力大，虽然经济水平不断提高，但是身体情况日愈低下，亚健康问题显著，导致头发不断变少，因自身的修复能力有限，所以绝大多数人会选择去专业头疗养生馆去养发，而今天要带领大家了解的，也跟头疗养发有关，只不过是关于加盟方面的事，头疗馆如何正确的选择品牌呢，在加盟过程中...。

2024-12-21 18:46:59

创业加盟

国产手表厂商 Watch 不应盲目跟风Apple (国产手表厂商有哪些)

3月9号，AppleWatch终于以完整的姿态被发布了出来，有关功能、配置、续航和定价都天下大白，不管它有多么不尽如人意，又有多高高在上，对于一些还在观望中的厂商来说都是一级强心针，毕竟它们一直在等这一刻，等待苹果的扛起智能手表的大旗，冲到行业发展的第一线上，之所以都在等苹果，是因为人们普遍相信，AppleWatch不会失败，一方面在...。

2024-12-09 19:45:35

资讯动态

女子便血肠镜检查发现直肠癌 (女子便血肠镜图片)

近一年来，刘女士时常有便血的现象，她一直当痔疮治疗，最近做了肠镜检查，才发现是直肠癌，医生提醒，现在已进入秋季，秋季人体容易，上火，，痔疮患者也就更容易便血，如果长期便血，千万不要大意，应当仔细鉴别，当心是肠癌作祟，便血一年多，查出直肠癌刘女士才30岁出头，一向开朗活泼，是开封某学校的教师，早在1年多前，她就发现如厕后擦过的手纸上时常...。

2024-12-06 15:34:52

资讯动态

力得博广告联盟站内互动数据分析 (力博得老板)

文字链接认证代码普通联盟标志认证代码企业广告联盟标志认证代码广告联盟评测代码说明，本页面的认证代码为力得博广告联盟专用评测代码，站长需懂简单html知识，直接复制代码粘贴到联盟网站相应页面即可使用，本代码不适用于其他广告联盟网站请勿获取！文字认证，文字链接代码认证适用所有类型的广告联盟，复制代码后放在力得博广告联盟网站首页底部或友情链...。

2024-12-05 21:04:09

网络百科

小米上市后首次财报非常好看但至少有三个问题需要担心 (小米上市后首份财报,重点都给你圈出来了)

对于已经于7月9日在香港上市的小米来说，上市以后的第一份财报毫无疑问有着非常重要的意义，上市一个多月以来，受到大环境影响，小米的股价并没有出现大的增长态势，甚至一度跌破发行价；因此整个业界和股票市场都在盯着小米上市后的第一次汇报表演，到了8月22日下午，小米正式公布了自上市以来的第一份财报数据，这份财报介绍了小米在2018年第二季度和...。

2024-12-03 19:34:51

资讯动态

只需1 (只需12个简单的步骤)

相关文章

文章推荐