부분적으로 관측 가능한 환경에서의 강화 학습은 일반적으로 기저 시스템 상태의 추정치를 학습해야 하므로 어려움이 있습니다. 본 논문은 이러한 어려움을 극복하고 완전히 분산된 훈련 및 실행을 통해 강화 학습을 가능하게 하기 위해 시스템의 기저 상태에 대한 학습된 신념을 사용하는 방법을 제안합니다. 자기 지도 방식으로 확률적 신념 모델을 사전 훈련하여 추론된 상태 정보와 이 정보에 대한 불확실성을 모두 포착하는 신념 상태를 생성합니다. 그런 다음 이러한 신념 상태를 상태 기반 강화 학습 알고리즘에서 사용하여 부분 관측 하에서 협력적 다중 에이전트 강화 학습을 위한 종단 간 모델을 만듭니다. 신념과 강화 학습 작업을 분리함으로써 정책 및 가치 함수 학습 작업을 크게 단순화하고 수렴 속도와 최종 성능을 모두 향상시킬 수 있습니다. 다양한 부분 관측 변형을 보이는 다양한 부분 관측 가능한 다중 에이전트 작업에서 제안된 방법을 평가합니다.