WorldLLM은 대규모 언어 모델(LLM)의 일반적인 지식과 구조화된, 특정 도메인 환경에서의 정확한 예측 사이의 격차를 해소하기 위한 프레임워크입니다. 베이시안 추론과 강화 학습을 통한 자율적이고 적극적인 탐색을 결합하여 LLM 기반 세계 모델을 향상시킵니다. WorldLLM은 LLM의 문맥 내 학습 능력을 활용하여 자연어 가설을 사용하여 LLM 기반 세계 모델의 예측을 안내합니다. 이러한 가설은 수집된 증거를 기반으로 두 번째 LLM을 제안 분포로 활용하는 베이시안 추론 프레임워크를 통해 반복적으로 개선됩니다. 이 증거는 호기심 기반의 강화 학습 정책을 사용하여 수집되며, 이는 현재 가설을 사용하여 LLM 기반 예측 모델에서 낮은 로그 우도를 가진 전환을 찾기 위해 환경을 탐색합니다. 가설을 개선하고 새로운 증거를 수집하는 것을 번갈아 수행함으로써, 이 프레임워크는 예측의 지속적인 개선을 자율적으로 추진합니다. 실험은 객체를 조작하고 결합해야 하는 텍스트 게임 환경에서 WorldLLM의 효과를 입증했습니다. 이 프레임워크는 예측 정확도를 향상시킬 뿐만 아니라 환경 역학에 대한 인간이 해석 가능한 이론을 생성합니다.