每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

沟通计划,而非感知:具有具体世界模型的可扩展多智能体协调

Created by
  • Haebom

作者

Brennen A. Hill、Mant Koh En Wei、Thangavel Jishnuanandh

大纲

本文探讨了在部分可观察环境中,多智能体系统如何通过鲁棒协调实现有效决策。具体而言,我们探讨了应该直接设计通信协议还是端到端学习通信协议的问题。我们比较了两种用于协作任务分配问题的通信策略。第一种是学习型直接通信 (LDC),这是一种端到端学习方法,其中智能体可以同时生成消息和动作。第二种是意向通信方法,称为想象轨迹生成模块 (ITGM),它使用一个紧凑的学习世界模型来模拟未来状态并进行总结以进行通信。在网格世界环境中进行的目标导向交互实验表明,虽然 LDC 在简单环境中可行,但基于世界模型的方法在复杂性增加时展现出卓越的性能、采样效率和可扩展性。

Takeaways, Limitations

Takeaways:
结构化预测模型可以集成到 MARL 代理中,以实现主动和目标导向的调整。
随着复杂性的增加,基于世界模型的工程方法表现更佳。
Limitations:
仅在简单的网格世界环境中进行实验。
没有提供 ITGM 等世界模型的设计和训练的详细信息。
需要进一步研究来确定其对其他复杂协作任务的普遍性。
👍