RLVR-World: Training World Models with Reinforcement Learning
Created by
Haebom
Category
Empty
저자
Jialong Wu, Shaofeng Yin, Ningya Feng, Mingsheng Long
RLVR-World: 세계 모델을 위한 검증 가능한 보상 기반 강화 학습
개요
본 논문은 세계 모델을 직접적으로 특정 작업 목표에 맞게 최적화하기 위해 검증 가능한 보상(RLVR)을 활용하는 강화 학습 기반의 통합 프레임워크인 RLVR-World를 제시합니다. RLVR-World는 텍스트 게임, 웹 탐색, 로봇 조작 등 다양한 도메인에서 언어 및 비디오 기반 세계 모델의 성능 향상을 입증했습니다. 이는 생성 모델의 유용성을 향상시키는 데 있어 RLVR이 유망한 후처리 패러다임임을 시사합니다.
시사점, 한계점
•
RLVR을 활용하여 세계 모델을 직접적인 작업 목표에 맞게 최적화하는 새로운 프레임워크 제시.
•
다양한 도메인(텍스트 게임, 웹 탐색, 로봇 조작)에서 언어 및 비디오 기반 세계 모델의 성능 향상 입증.