본 논문은 부분 관측 가능성 하에서 다중 에이전트 강화 학습(MARL)에서 효과적인 의사소통이 에이전트 성능을 향상시킨다는 점에 착안하여, 매개변수 공유 없이 완전히 분산된 독립 에이전트 간의 의사소통을 가능하게 하는 MARL-CPC 프레임워크를 제안합니다. MARL-CPC는 출현 의사소통 연구에서 집단 예측 코딩(CPC)을 기반으로 하는 메시지 학습 모델을 통합합니다. 기존의 메시지를 행동 공간의 일부로 취급하고 협력을 가정하는 방법과 달리, MARL-CPC는 메시지를 상태 추론과 연결하여 비협력적이고 보상과 무관한 환경에서의 의사소통을 지원합니다. 본 논문에서는 Bandit-CPC와 IPPO-CPC라는 두 가지 알고리즘을 제시하고 비협력적 MARL 과제에서 평가합니다. 벤치마크 결과, 두 알고리즘 모두 표준 메시지-행동 접근 방식보다 우수한 성능을 보이며, 메시지가 송신자에게 직접적인 이점을 제공하지 않는 경우에도 효과적인 의사소통을 가능하게 함을 보여줍니다. 이러한 결과는 MARL-CPC가 복잡하고 분산된 환경에서 조정을 가능하게 하는 잠재력을 강조합니다.