본 논문은 부분 관찰 환경에서 효과적인 의사 결정을 위한 견고한 조율의 중요성을 강조하며, 다중 에이전트 강화 학습(MARL)에서 통신 프로토콜을 엔지니어링할지, 아니면 종단간 학습할지를 연구합니다. 특히, 구현된 월드 모델을 활용하여 협력적인 작업 할당 문제에 대한 두 가지 통신 전략을 비교합니다. 첫 번째는 학습된 직접 통신(LDC)으로, 종단간 프로토콜을 학습합니다. 두 번째는 의도 통신으로, 에이전트의 정책을 사용하여 미래 상태를 시뮬레이션하는 소형 학습 월드 모델인 상상 궤적 생성 모듈(ITGM)을 사용합니다. 그런 다음 메시지 생성 네트워크(MGN)가 이 계획을 메시지로 압축합니다. 논문은 복잡성을 확장하면서 목표 지향적 상호 작용에 대한 이러한 접근 방식을 평가합니다.