본 논문은 강화 학습과 검증 가능한 보상(RLVR)을 활용하여 다양한 모드에서 세계 모델(world model)을 직접 최적화하는 통합 프레임워크인 RLVR-World를 제시합니다. 기존의 최대 우도 추정(MLE)과 같은 훈련 목표는 정확도나 지각 품질과 같은 작업 특정 목표와 불일치하는 경우가 많다는 점을 지적하며, RLVR-World는 토큰화된 시퀀스의 자기 회귀적 예측으로 세계 모델링을 공식화하지만, 디코딩된 예측의 메트릭을 검증 가능한 보상으로 평가합니다. 텍스트 게임, 웹 탐색, 로봇 조작 등 다양한 영역에서 언어 및 비디오 기반 세계 모델의 성능 향상을 보여줍니다. 이는 추론 언어 모델의 최근 발전을 넘어, RLVR이 생성 모델의 유용성을 더욱 향상시키는 유망한 훈련 후 패러다임임을 시사합니다.