Reinforcement Learning with Verifiable Reward (RLVR)의 탐구: 깊이와 너비의 확장
개요
본 논문은 RLVR(Reinforcement Learning with Verifiable Reward)에서 대규모 언어 모델의 추론 능력을 향상시키기 위해 두 가지 미탐구 차원인 깊이(모델이 샘플링할 수 있는 가장 어려운 문제)와 너비(단일 반복에서 사용되는 인스턴스 수)를 탐구합니다. GRPO 알고리즘의 편향성을 분석하여 깊이 문제를 해결하기 위해 Difficulty Adaptive Rollout Sampling (DARS)을 제안하고, 너비를 확장하기 위해 배치 크기를 늘리고 전체 배치 업데이트를 수행합니다. DARS-B를 통해 깊이와 너비를 동시에 확장하여 Pass@K와 Pass@1 성능을 향상시킵니다.
시사점, 한계점
•
시사점:
◦
DARS를 통해 어려운 문제에 대한 긍정적인 롤아웃 수를 늘려 깊이 문제를 해결하고 Pass@K 성능을 향상시킴.
◦
대규모 배치 훈련을 통해 너비를 확장하여 Pass@1 성능을 크게 향상시킴.
◦
DARS-B를 통해 깊이와 너비를 동시에 확장하여 Pass@K와 Pass@1 성능을 모두 향상시킴.