Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

Created by
  • Haebom

저자

Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Dongchun Xie, Yiwei Wang, Xiaodan Liang, Jing Tang

Reinforcement Learning with Verifiable Reward (RLVR)의 탐구: 깊이와 너비의 확장

개요

본 논문은 RLVR(Reinforcement Learning with Verifiable Reward)에서 대규모 언어 모델의 추론 능력을 향상시키기 위해 두 가지 미탐구 차원인 깊이(모델이 샘플링할 수 있는 가장 어려운 문제)와 너비(단일 반복에서 사용되는 인스턴스 수)를 탐구합니다. GRPO 알고리즘의 편향성을 분석하여 깊이 문제를 해결하기 위해 Difficulty Adaptive Rollout Sampling (DARS)을 제안하고, 너비를 확장하기 위해 배치 크기를 늘리고 전체 배치 업데이트를 수행합니다. DARS-B를 통해 깊이와 너비를 동시에 확장하여 Pass@K와 Pass@1 성능을 향상시킵니다.

시사점, 한계점

시사점:
DARS를 통해 어려운 문제에 대한 긍정적인 롤아웃 수를 늘려 깊이 문제를 해결하고 Pass@K 성능을 향상시킴.
대규모 배치 훈련을 통해 너비를 확장하여 Pass@1 성능을 크게 향상시킴.
DARS-B를 통해 깊이와 너비를 동시에 확장하여 Pass@K와 Pass@1 성능을 모두 향상시킴.
깊이와 너비가 RLVR의 추론 능력 향상에 기여하는 독립적인 차원임을 입증.
한계점:
구체적인 한계점은 논문에 명시되지 않았음.
👍