본 논문은 통신이 불가능한 분산 부분 관측 환경에서의 협력 학습 문제를 다룬다. 다중 에이전트 심화 강화 학습(MARL)에서 개별 에이전트의 관측으로부터 상태 표현을 추론하고 이를 활용하여 에이전트의 탐색 및 협력적 작업 실행 정책을 향상시키는 데 중점을 둔다. 이를 위해, 에이전트가 자신의 정책을 최적화하는 관점에서 비관측 상태의 의미 있는 신념 표현을 추론하고, 중복되거나 정보가 적은 공동 상태 정보를 필터링하는 새로운 상태 모델링 프레임워크를 제안한다. 이 프레임워크를 기반으로 MARL SMPE 알고리즘을 제안하는데, SMPE에서는 에이전트가 신념을 정책 네트워크에 통합하고, 적대적 탐색 정책을 채택하여 새로운 고가치 상태를 발견하고 다른 에이전트의 판별 능력을 향상시킴으로써 부분 관측 하에서 정책의 판별 능력을 향상시킨다. 실험 결과, SMPE는 MPE, LBF, RWARE 벤치마크의 복잡한 완전 협력 작업에서 최첨단 MARL 알고리즘을 능가함을 보여준다.