Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Created by
  • Haebom
Category
Empty

저자

Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang

개요

본 연구는 RLVR (Reinforcement Learning with Verifiable Rewards)로 훈련된 LLM(Large Language Model)의 추론 능력 경계를 체계적으로 조사한다. 다양한 모델 계열, RL 알고리즘, 수학, 코딩, 시각적 추론 벤치마크를 사용하여 RLVR 훈련 모델의 추론 능력을 평가하며, pass@k를 평가 지표로 사용한다. 연구 결과, 현재의 RLVR 훈련 방식은 근본적으로 새로운 추론 패턴을 유도하지 못하며, base model의 능력을 초과하지 못함을 발견했다.

시사점, 한계점

RLVR 훈련 모델은 작은 k 값에서는 base model보다 성능이 뛰어나지만, k가 커질수록 base model의 성능을 넘지 못한다.
관찰된 추론 능력은 base model에서 기인하며, base model의 한계에 갇혀 있다.
6가지 인기 있는 RLVR 알고리즘은 유사한 성능을 보이며 base model의 잠재력을 충분히 활용하지 못한다.
Distillation은 새로운 추론 패턴을 도입하고 모델의 추론 능력을 실제로 확장할 수 있음을 확인했다.
현재 RLVR 방법은 LLM에서 진정으로 새로운 추론 능력을 이끌어내는 RL의 잠재력을 아직 실현하지 못했다.
지속적인 scaling 및 multi-turn agent-environment interaction과 같은 개선된 RL 패러다임이 필요하다.
👍