浩克网 手游攻略 软件教程 DeepMind最新力作:分布式强化学习框架Acme,智能体并行性加强

DeepMind最新力作:分布式强化学习框架Acme,智能体并行性加强

时间:2026-03-30 10:29:57 来源:网络整理 浏览:0

选自DeepMind博客

机器心脏编译

参与:蛋酱,杜威

最近,DeepMind发布了一个新的分布式强化学习框架“Acme”,通过让AI驱动的代理运行在不同规模的环境中,可以简化强化学习算法的开发过程。此外,与以前方法相比,

研究人员可以使用这个框架来创建更多的并行代理。

近年来,在深度学习技术和计算能力提升的双重加持下,强化学习在许多复杂的AI挑战中取得了辉煌的成绩。无论是象棋、围棋、麻将、王者荣耀以及各种雅达利经典游戏,强化学习的表现都足够惊艳。

然而,深度强化学习在带来突破性进展的同时,也带来了一些“挑战”:这些进步往往是以牺牲底层强化学习算法的规模和复杂度为代价的,复杂度的增加反过来又使得已发表的强化学习算法或思想难以重现。

为了解决强化学习算法从单进程原型扩展到分布式系统过程中的代理重新部署问题,DeepMind推出了新的分布式强化学习框架“Acme”。

目前,由研究人员和工程师共同完成的论文也已正式发表。

项目地址:https://github.com/deepmind/acme

地址:https://arxiv.org/abs/2006.00979.

Acme是一个用于构建可读、高效和面向研究的强化学习算法的框架。核心思想是实现对强化学习代理的简单描述,使代理可以在各种规模下运行,包括分布式代理。

在设计Acme的过程中,研究人员还充分考虑了不同规模的代理之间的差异,弥合了大、中、小实验之间的差异。

DeepMind研究员表示:“我们的目标是让学术界和工业界开发的各种强化学习算法更容易被复制和扩展到整个机器学习社区。」

Acme框架到底是什么?

在最高层次上,我们可以把Acme看作一个经典的强化学习界面(在任何入门级的强化学习教材中都可以找到)。它的功能是将参与者(如动作选择代理)连接到环境。

Actor是一个简单的接口,具有动作选择、观察和自我更新的能力。在内部,学习代理可以分为两部分:执行和从数据中学习。从表面上看,

这使得在许多不同的代理中重复使用代理部分成为可能。

但更重要的是,这提供了一个让学习过程可划分和并行化的关键边界:使用者甚至可以在此处按比例缩小规模,并无缝地攻击不存在环境且只有固定数据集的批强化学习设置(batch RL setting)。

下图展示了不同级别复杂度的情况:

这种设计使得研究者在扩展之前可以轻松地在小规模场景中创建、测试和调试新型智能体,并且所有这些都使用相同的动作和学习代码。从检查点技术到快照技术,

Acme 框架还为低水平计算机辅助提供大量有用的实用工具。这些工具常常在强化学习算法中发挥不可或缺的重要作用,在Acme 框架,DeepMind 力图使它们更简单且更易理解。

为了实现这种设计,Acme 框架还使用了「Reverb」,一种针对机器学习(包括强化学习)数据创建的新型高效数据存储系统。

Reverb 在分布式强化学习算法中主要用作经验回放(experience replay)系统,但也支持FIFO 和优先级队列等其他数据结构表示,

这样可以无缝地用于在线和离线策略算法(on-and off-policy algorithm)。

Acme 框架下智能体的性能变化

除了基础架构之外,DeepMind 还发布了使用Acme 框架所创建的大量智能体的单进程实例化,

它们可以运行连续控制(如D4PG 和MPO)、离散Q 学习(DQN 和R2D2)以及更多其他强化学习算法。此外,通过跨动作/学习边界分割这样的小改变,我们即可以分布式地运行这些智能体。

Acme 框架首个版本主要针对学生和研究人员使用最多的单进程智能体。

研究者在control suite、Atari 和bsuite 等环境中对这些智能体进行了基准测试,下面动图Demo 为利用Acme 框架的智能体训练示例:

如下图所示,DeepMind 展示了单个智能体(D4PG)的性能比较,其中所采用的度量指标是连续控制任务的actor step 和时钟时间。可以看到,当对智能体收到的奖励与其环境交互次数进行比较时,

性能大致相同。但是,随着智能体进一步并行化,智能体的学习速度加快。在相对较小的域内,观察结果被限制在小的特征空间中,这时即使并行化程度适度增加,则智能体学习最优策略的时间会降至不到一半。

但对于更复杂的域,图像生成成本相对较高,我们可以看到更广泛的增益:

对于雅达利游戏等数据收集成本更高且学习过程通常更长的域说,增益会更大。但需要注意的是,这些结果在分布式和非分布式设置下共享相同的动作和学习代码,因此对这些智能体和结果进行小规模实验完全可行。

原文链接:https://deepmind.com/research/publications/Acme

标题:DeepMind最新力作:分布式强化学习框架Acme,智能体并行性加强
链接:https://www.52hkw.com/news/rj/67043.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
Tiktok专用的梯子加速器(TK加速器全球加速)

Tiktok作为当前最火爆的短视频平台,受到了全球用户的热烈欢迎。然而,由于网络限制或者其他原因,很多用户在观看

2026-03-30
怎么不让快递放菜鸟驿站

菜鸟裹裹怎么禁止放快递?经常网购的小伙伴都知道,如果附近有菜鸟驿站,那么驿站的快递员会默认选择放在驿站中,并

2026-03-30
德国游戏排行榜前十名(德国出品的游戏)

中国的玩家可能在新闻里听过德国科隆游戏展,但对德国的游戏却感觉很陌生。游戏玩家大部分多少应该都体验过SL

2026-03-30
菜鸟驿站怎么送货上门

菜鸟裹裹怎么送货上门?有过菜鸟驿站拿快递的小伙伴都知道,很多菜鸟驿站在派送快递时,默认是放在菜鸟驿站,需要我

2026-03-30