본 논문은 통신이 불가능한 분산 부분 관측 환경에서의 협력 학습 문제를 다룬다. 다수 에이전트 심화 강화 학습(MARL)에서 개별 에이전트의 관측으로부터 상태 표현을 추론하고 이를 활용하여 에이전트의 탐색 및 협력적 작업 실행 정책을 향상시키는 데 초점을 맞춘다. 이를 위해, 에이전트가 자신의 정책 최적화 관점에서 비관측 상태의 의미있는 신념 표현을 추론하고, 중복되거나 정보가 부족한 공동 상태 정보를 필터링하는 새로운 상태 모델링 프레임워크를 제안한다. 이 프레임워크를 기반으로 MARL SMPE 알고리즘을 제안하며, SMPE에서는 에이전트가 신념을 정책 네트워크에 통합함으로써 부분 관측 하에서 정책의 판별 능력을 명시적으로 향상시키고, 새로운 고가치 상태를 발견하도록 장려하는 적대적 탐색 정책을 채택함으로써 암시적으로 판별 능력을 향상시킨다. 실험 결과, SMPE는 MPE, LBF, RWARE 벤치마크의 복잡한 완전 협력 작업에서 최첨단 MARL 알고리즘을 능가하는 것으로 나타났다.