浩克网 手游攻略 软件教程 上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练

上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练

时间:2026-03-30 09:57:57 来源:网络整理 浏览:0

机器专栏的核心

作者:上海交通大学和UCL多智能体强化学习研究团队。

基于种群的多智能体深度强化学习(PB-MARL)方法已经在《星际争霸》、《王者荣耀》等游戏AI中得到成功验证,MALib是首个开源的专门针对PB-MARL的大规模并行训练框架。

MALib支持多种群体训练方法(例如,自弹、PSRO、联盟训练),实现并优化了常用的多智能体深度强化学习算法,为研究人员减少了并行化工作量。

大大提高了培训效率。此外,MALib基于Ray底层分布式框架实现了全新的集中式任务分发模型。与常见的多智能体强化学习和训练框架(RLlib、PyMARL、OpenSpiel)相比,

在相同的硬件条件下,吞吐量和训练速度都提高了数倍。现阶段MALib已经对接了常见的多智能体环境(星际争霸、谷歌足球、棋牌、多人雅达利等。),并将进一步为自动驾驶、智能电网等场景提供支持。

项目主页:https://malib.io

在深度学习领域,计算能力一直是我们关注的一个焦点,也是影响人工智能算法落地的关键因素。在很多应用场景中,足够的计算支持可以显著加快算法从呈现、训练到落地的效率。

比如使用OpenAI Five的十亿参数,其日GPU计算消耗为770 50 ~ 820 50 pflops/s .在深度强化学习领域,随着应用场景从单智能体扩展到多智能体,

算法的复杂度也呈指数级增长,这也对计算能力的要求提出了新的挑战,需要调用更多的计算资源。特别是当要处理的问题规模和涉及的智能体数量较大时,单机训练算法的可行性明显下降。

为了解决与群体智能相关的问题,多智能体强化学习经常涉及群体中智能体之间的合作和对抗。目前,有许多涉及大规模智能体和复杂多样交互的现实任务应用,如军事场景中的人群模拟、自动驾驶和无人机集群控制:

质量模拟器(http://gamma . cs . unc . edu/com agent/imgs/sitterson 3 . jpg).

自动驾驶(https://github。com/华为-诺亚/SMARTS/blob/master/docs/_ static/smarts _ envision。gif)。

无人机集群(https://防御系统。com/-/media/GIG/Defense-Systems/Web/2015/Jan feb/code drones。png)。

在算法上,解决这类群体问题的一个重要途径是基于群体的多智能体强化学习方法,这也是MALib目前重点瞄准的方向。

基于群体的多智能体强化学习(PB-MARL)涉及多个策略集的交互,下图显示了一般的基于群体的多智能体强化学习算法的主要流程。

PB-MARL算法是深度强化学习和动态种群选择方法(例如,博弈论、进化策略)的结合,用于自动扩展策略集。PB-MARL能不断产生新的智能,因此在一些复杂任务中取得了不错的效果。

如即时决策游戏Dota2、StrarCraftII、卡牌任务Leduc Poker等。然而,在实际问题中,目前的多智能体强化学习算法与其应用仍有差距。

一个亟待解决的问题是大规模场景下算法的训练效率。由于多智能体算法固有的耦合性,种群算法在其训练过程中需要大量的数据,因此也需要一个灵活的、可扩展的训练框架来保证其有效性。

如何提高算法训练的效率?对于很多依赖深度学习技术的领域,当任务规模变大,模型参数变多时,需要引入额外的技术来提高训练效率。分布式计算是最直接考虑的方法。通过多进程或多机器模式,

提高算法对计算资源的利用效率,从而提高算法训练的效率。分布式技术在深度强化学习领域的应用也催生了分布式深度强化学习领域,其研究重点包括计算框架的设计和大规模分布式强化学习算法的开发。

近年来,为了更好地训练大规模深度强化学习算法,研究人员通过抽象算法接口和系统设计,开发了更专业化的训练框架,以支持更复杂的实时数据采样、模型训练和推理需求。然而

分布式强化学习技术的发展似乎并没有触及群体智能的问题。事实上,现有的分布式强化学习框架对于一般多智能体强化学习算法的分布式计算支持是完全不够的。

典型的分布式强化学习框架,如RLlib、Sample-Factory和SEED RL,在其设计模式中将多智能体任务视为单智能体任务,忽略了多智能体算法之间的异构性。

其他强调agent交互的学习范式,如集中训练、基于网络的分布式算法和具有通信功能的协作算法,都没有明确的支持。

缺乏相应的统一接口来简化算法实现和训练过程。因此,当研究人员想要探索更多类型的多智能体强化学习算法的分布式训练时,往往需要做大量额外的编码工作。对于多智能体强化学习算法框架的开发,

现有的工作更多的关注算法实现,而不是算法在大规模场景下的可扩展性,或者更多的是针对特定场景设计的算法库,比如PyMARL和SMARTS。

其作用更偏向于服务专门领域内的benchmark,在算法类型上,大部分框架也做得并不全面。因此对于多智能体强化学习算法框架支持这一块,

也一直是缺乏一套比较全面的框架来打通算法实现、训练和部署测试这一套流程。

我们认为以上两个发展现状的主要原因至少会有两点:(1)一个是因为多智能体算法本身在结构上具有的异构性较高,

导致算法在接口实现的一致性和复用性上不是太高;(2)另一方面也是因为多智能体分布式算法依然处于早期探索阶段。此外,在分布式部署方面,

现有分布式强化学习框架对independent learning 算法的支持更友好,也更自然和直接。就像通常分布式技术在机器学习领域的应用一样,

要解决目前分布式技术在大规模多智能体强化学习领域的更深层次的应用,算法和框架都必不可少,两者相辅相成。

在算法方面,一个重要的途径是基于群体的多智能体强化学习方法,也是MALib 目前阶段所重点瞄准的方向。

基于群体的多智能体强化学习(Population-based MARL, PB-MARL)涉及到多个策略集合交互问题,下图展示了通常意义上基于群体的多智能体强化学习算法的主要流程。

PB-MARL 算法特点是结合了深度强化学习和动态种群选择方法(例如,博弈论,进化策略)来进行自动策略集扩展。通过这种方式,PB-MARL 能够不断产生新的智能,

并且在解决一些复杂任务上都取得了不错的效果,如实时决策游戏Dota2 、StrarCraftII,以及纸牌任务Leduc Poker。

然而,也正是由于种群算法内在耦合了多智能体算法,导致这一类算法在训练过程对数据的需求极大,因此也需要一个灵活的、可扩展的训练框架来保证其有效性。

论文链接:https://arxiv.org/abs/2106.07551GitHub:https://github.com/sjtu-marl/malibMALib框架图

为了应对这些需求,我们提出了MALib,从三个方面提出了针对大规模群体多智能体强化学习算法的解决方案:(1)中心化任务调度:自动递进式生成训练任务,

作业进程的半主动执行能够提高训练任务的并行度;(2)Actor-Evaluator-Learner 模型:解耦数据流,

以满足多节点灵活的数据存储和分发;(3)从训练层面对多智能体强化学习进行抽象:尝试提高多智能体算法在不同训练模式之间的复用率,比如DDPG 或者DQN 可以很方便地嫁接到中心化训练模式中。

中心化任务调度模型(c) 与以往分布式强化学习框架调度模型的对比:(a)完全分布式;(b)层级式

具体而言,MALib 的框架特点如下:

系统吞吐量较高度优化的SOTA 框架SampleFactory 提升近100%;纯CPU 环境MALib 的吞吐量优势较进一步扩大至近450%;同类算法训练速度较DeepMind 开发的open spiel 提升三倍以上。

我们和一些现有的分布式强化学习框架进行了对比,以MADDPG 为例,

下图展示的是在multi-agent particle environments 上使用不同并行程度训练simple-spread 任务的学习曲线。

与RLlib 对比训练MADDPG 的效果。

对照框架是RLlib。随着worker 的数量增多,RLlib 的训练越来越不稳定,而MALib 的效果一直表现稳定。包括更复杂的环境,比如StarCraftII 的一些实验,

我们对比PyMARL 的实现,比较QMIX 算法训练到胜率达到80% 所花费的时间,MALib 有显著的效率提升(worker 数量都是设置成32)。

与PyMARL 在星际任务上的效率对比。

另一方面,我们比较关注的是训练过程的采样效率。我们也对比了与其他分布式强化学习框架的吞吐量对比,在多智体版本的Atari 游戏上,MALib 在吞吐量和扩展性上都表现了不错的性能。

在星际及多智能体Atari 任务上不同框架的吞吐量对比。

目前,我们的项目已经开源在GitHub 上(https://github.com/sjtu-marl/malib),更多的功能正在积极开发中,

欢迎使用并向我们提出宝贵的改进意见!同时如果有兴趣参与项目开发,欢迎联系我们!联系方式:ying.wen@sjtu.edu.cn。

团队介绍

本项目由上海交通大学与伦敦大学学院(UCL)联合的多智能体强化学习研究团队开发。MALib 项目主要由上海交通大学温颖助理教授指导下进行开发,核心开发成员包括上海交通大学三年级博士生周铭,

ACM 班大四本科生万梓煜,一年级博士生王翰竟,访问学者温睦宁,ACM 班大三本科生吴润哲,并得到上海交通大学张伟楠副教授和伦敦大学学院的杨耀东博士、汪军教授的联合指导。

团队长期致力于从理论算法、系统与应用三个层面入手,针对开放、真实、动态的多智能场景下的智能决策进行研究。理论团队核心成员在人工智能和机器学习顶会发表多智能体强化学习相关论文共计五十余篇,

并获得过CoRL 2020 最佳系统论文、AAMAS 2021 Blue Sky Track 最佳论文奖。系统方面,除了面向多智能体强化学习种群训练的系统MALib,

本团队研发SMARTS、CityFlow、MAgent 等大规模智能体强化学习仿真引擎,累计在Github 上获得了超过2000 加星。此外,

团队在游戏、自动驾驶、搜索与推荐等场景下具有强化学习技术的真实应用落地的经验。

标题:上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练
链接:https://www.52hkw.com/news/rj/67040.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
Tiktok专用的梯子加速器(TK加速器全球加速)

Tiktok作为当前最火爆的短视频平台,受到了全球用户的热烈欢迎。然而,由于网络限制或者其他原因,很多用户在观看

2026-03-30
怎么不让快递放菜鸟驿站

菜鸟裹裹怎么禁止放快递?经常网购的小伙伴都知道,如果附近有菜鸟驿站,那么驿站的快递员会默认选择放在驿站中,并

2026-03-30
德国游戏排行榜前十名(德国出品的游戏)

中国的玩家可能在新闻里听过德国科隆游戏展,但对德国的游戏却感觉很陌生。游戏玩家大部分多少应该都体验过SL

2026-03-30
菜鸟驿站怎么送货上门

菜鸟裹裹怎么送货上门?有过菜鸟驿站拿快递的小伙伴都知道,很多菜鸟驿站在派送快递时,默认是放在菜鸟驿站,需要我

2026-03-30