본 논문은 제한된 데이터로 복잡한 환경에 적응하는 AI 에이전트를 구축하기 위한 새로운 세계 모델 학습 방법을 제시합니다. 기존 심층 학습 기반 세계 모델의 데이터 요구량이 많고, 드문 관찰로부터 유연하게 지식을 업데이트하지 못하는 한계를 극복하기 위해, 대규모 언어 모델(LLM)을 이용한 프로그램 합성 기법을 활용합니다. 특히, 지수 가중 평균으로 결합된 프로그램 전문가들의 곱(PoE-World)으로 세계 모델을 표현하여 복잡하고 격자형이 아닌 환경을 효과적으로 모델링합니다. Atari 게임 Pong과 Montezuma's Revenge에서 제한된 관찰만으로 복잡한 확률적 세계 모델을 학습하고, 모델 기반 계획 에이전트에 통합하여 효율적인 성능과 미지의 레벨로의 일반화를 보여줍니다. 학습된 세계 모델과 에이전트의 게임 플레이 영상은 공개 웹사이트에서 확인 가능합니다.