Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RLVR-World: Training World Models with Reinforcement Learning

Created by
  • Haebom

저자

Jialong Wu, Shaofeng Yin, Ningya Feng, Mingsheng Long

개요

본 논문은 강화 학습과 검증 가능한 보상(RLVR)을 활용하여 다양한 모드에서 세계 모델(world model)을 직접 최적화하는 통합 프레임워크인 RLVR-World를 제시합니다. 기존의 최대 우도 추정(MLE)과 같은 훈련 목표는 정확도나 지각 품질과 같은 작업 특정 목표와 불일치하는 경우가 많다는 점을 지적하며, RLVR-World는 토큰화된 시퀀스의 자기 회귀적 예측으로 세계 모델링을 공식화하지만, 디코딩된 예측의 메트릭을 검증 가능한 보상으로 평가합니다. 텍스트 게임, 웹 탐색, 로봇 조작 등 다양한 영역에서 언어 및 비디오 기반 세계 모델의 성능 향상을 보여줍니다. 이는 추론 언어 모델의 최근 발전을 넘어, RLVR이 생성 모델의 유용성을 더욱 향상시키는 유망한 훈련 후 패러다임임을 시사합니다.

시사점, 한계점

시사점:
강화 학습과 검증 가능한 보상을 활용하여 세계 모델의 성능을 향상시키는 새로운 프레임워크 RLVR-World 제시.
다양한 모달리티(언어, 비디오)와 도메인(텍스트 게임, 웹 탐색, 로봇 조작)에서 성능 향상을 실험적으로 증명.
MLE의 한계를 극복하고, 작업 특정 목표에 맞춰 세계 모델을 최적화하는 효과적인 방법 제시.
추론 언어 모델을 넘어, 생성 모델 전반의 유용성 향상에 대한 새로운 패러다임 제시.
한계점:
RLVR-World의 적용 가능성과 일반화 성능에 대한 추가적인 연구 필요.
다양한 종류의 생성 모델과 작업에 대한 적용성 평가 필요.
검증 가능한 보상의 설계 및 선택에 대한 지침 및 방법론에 대한 추가 연구 필요.
계산 비용 및 복잡성에 대한 추가 분석 필요.
👍