每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过分层协同自我游戏强化学习掌握多无人机排球

Created by
  • Haebom

作者

张瑞泽、向斯瑞、徐泽来、高峰、季世龙、唐文浩、丁文波、于超、王宇

大纲

本文提出了一种解决名为3v3多无人机排球的新型具身竞技任务的方法。这是一个回合制、多智能体、基于物理机制的任务,需要高级战略协调和低级敏捷控制。长期依赖关系、紧密的智能体间耦合以及四旋翼飞行器有限的动态性能带来了重大挑战。为了应对这些挑战,我们提出了分层协作自对弈(HCSP),这是一个分层强化学习框架,将集中式高级战略决策与分布式低级运动控制分离。我们设计了一个三阶段的群体学习流程,无需专家演示即可从零开始生成策略和技能:(I) 多样化的低级技能训练;(II) 使用固定的低级技能通过自对弈进行高级策略学习;以及 (III) 通过协作自对弈进行联合微调。实验结果表明,HCSP 的表现优于非分层自对弈和基于规则的分层基线算法,平均胜率达到 82.9%,两阶段变体的胜率更是高达 71.5%。此外,协作式自对弈能够引发角色转换和协同编队等新颖的团队行为,展现了分层设计和训练方法的有效性。

Takeaways,Limitations

Takeaways:
我们为复杂的多智能体环境(例如 3v3 多无人机排球)提出了一种有效的分层强化学习框架 (HCSP)。
展示三阶段学习流程的有效性,无需专家演示即可学习各种低级技术和高级策略。
我们观察到,角色转换和协调阵型等新的团队行为是通过协作自我游戏自然产生的。
取得了比非分层自我游戏和基于规则的标准更好的表现(平均胜率为 82.9%)。
Limitations:
需要进一步研究来确定所提方法的泛化性能,并需要验证其对其他类型多智能体系统的可扩展性。
这些结果仅限于3对3无人机排球的特定环境。需要进一步研究以确定其在其他环境和任务中的适用性。
缺乏对训练时间和计算成本的分析。需要进一步研究以确定更有效的训练方法。
👍