本文探讨了在部分可观察环境中,多智能体系统如何通过鲁棒协调实现有效决策。具体而言,我们探讨了应该直接设计通信协议还是端到端学习通信协议的问题。我们比较了两种用于协作任务分配问题的通信策略。第一种是学习型直接通信 (LDC),这是一种端到端学习方法,其中智能体可以同时生成消息和动作。第二种是意向通信方法,称为想象轨迹生成模块 (ITGM),它使用一个紧凑的学习世界模型来模拟未来状态并进行总结以进行通信。在网格世界环境中进行的目标导向交互实验表明,虽然 LDC 在简单环境中可行,但基于世界模型的方法在复杂性增加时展现出卓越的性能、采样效率和可扩展性。