본 논문은 비지도 객체 중심 표현 학습의 발전이 후속 작업에 상당한 개선을 가져왔다는 점을 바탕으로, 객체 중심 세계 모델을 비평가(critic)에 통합한 새로운 객체 중심 강화 학습 알고리즘을 제안합니다. 이는 행위자-비평가(actor-critic) 및 모델 기반 접근 방식을 통합한 방법으로, 세계 모델은 현재 상태-행동 쌍을 기반으로 다음 상태와 보상을 예측하여 환경의 데이터 생성 과정을 포착합니다. 모델 기반 강화 학습에서 세계 모델 학습은 원인 추론 문제로 해석될 수 있으며, 에이전트는 환경 역학의 근본적인 인과 관계를 학습해야 합니다. 3D 시뮬레이션 로봇 환경과 구성적인 구조를 가진 2D 환경에서 본 방법을 평가하고, 객체 중심 모델-프리 행위자-비평가 알고리즘과 최첨단 단일 모델 기반 알고리즘을 기준으로 비교합니다. 기준 알고리즘은 쉬운 작업에서는 비슷한 성능을 보이지만, 본 논문의 방법은 많은 객체 또는 더 복잡한 역학을 가진 더 어려운 시나리오에서 더 나은 성능을 보입니다.