본 논문은 대규모 이종 데이터셋으로부터 높은 성능을 가진 일반화된 에이전트를 개발하고자 하는 오프라인 강화학습(RL)의 목표에 집중합니다. 기존의 대규모 오프라인 RL 접근 방식은 전문가 데이터에 크게 의존하거나 다양한 미지의 작업에 대한 일반화에 어려움을 겪는다는 한계를 가지고 있습니다. 본 논문에서는 조건부 비디오 생성에서 우수한 일반화 성능을 보이는 월드 모델에서 영감을 얻어, 이미지 관측 기반 월드 모델을 오프라인 RL의 확장 및 새로운 작업에 대한 일반화 향상에 활용하고자 합니다. JOWA(Jointly-Optimized World-Action model)라는 새로운 오프라인 모델 기반 RL 에이전트를 제안하는데, 이는 60억 토큰의 Atari 게임 데이터로 사전 학습되어 일반적인 표현 학습 및 의사 결정 능력을 습득합니다. 공유 트랜스포머 백본을 통해 월드-액션 모델을 공동 최적화하여 사전 학습 중 대규모 모델에서의 시간차 학습을 안정화시키며, Q-값 추정 오차를 보정하고 더 나은 정책을 탐색하기 위해 증명 가능한 효율성과 병렬 처리 가능성을 갖는 계획 알고리즘을 제안합니다. 실험 결과, 매개변수 1억 5천만 개의 가장 큰 에이전트는 사전 학습된 게임에서 10%의 하위 샘플링된 오프라인 데이터만 사용하여 78.9%의 인간 수준 성능을 달성했으며, 기존 최첨단 대규모 오프라인 RL 기준 모델보다 평균 31.6% 향상된 성능을 보였습니다. 또한, JOWA는 모델 용량에 따라 확장성이 뛰어나며, 게임당 5k의 오프라인 미세 조정 데이터(약 4개의 트레이젝토리)만을 사용하여 새로운 게임으로 효율적으로 전이 학습이 가능하여 우수한 일반화 성능을 보여줍니다.