Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adaptive Guidance Accelerates Reinforcement Learning of Reasoning Models

Created by
  • Haebom

저자

Vaskar Nath, Elaine Lau, Anisha Gunjal, Manasi Sharma, Nikhil Baharte, Sean Hendryx

개요

본 논문은 강화 학습과 검증 가능한 보상을 사용하여 훈련된 추론 모델(RLVR)이 새로운 문제를 해결하는 과정을 연구합니다. RLVR은 (1) pass@$k$를 pass@1로 압축하고 (2) 모델이 이전에는 높은 $k$에서도 해결할 수 없었던 새로운 문제를 해결하는 "능력 향상"을 통해 성능을 향상시킵니다. 모델 규모에 걸쳐 능력 향상이 존재하지만, 새로운 문제 해결 학습은 주로 자기 증류를 통해 이루어집니다. 수학, 과학, 코드 영역에서 프롬프트와 검증 가능한 최종 답변을 포함하는 50만 개 이상의 추론 문제에 대해 0.5B에서 72B 매개변수에 이르는 다양한 모델 규모에서 이러한 결과를 보여줍니다. 또한 모델이 처음부터 해결책 체인을 도출해야 하는 경우에도 모델이 맥락 내에서 고려할 수 있도록 자연어 안내를 활용하여 pass@$k$ 비율을 크게 향상시킬 수 있음을 보여줍니다. 이러한 통찰력을 바탕으로 새로운 온라인 훈련 알고리즘인 $\text{Guide}$를 도출합니다. $\text{Guide}$는 모든 롤아웃이 처음에 잘못되었던 문제에 대한 모델의 맥락에 힌트를 적응적으로 통합하고 "오프-폴리시" 궤적에 대한 중요도 샘플링 비율을 조정하여 더 이상 힌트가 없는 맥락에 대한 정책을 최적화합니다. GRPO 및 PPO에 대한 $\text{Guide}$의 변형을 설명하고, 7B 및 32B 매개변수 모델에서 Guide-GRPO가 기본적인 모델보다 일반화 성능을 최대 4% 향상시키는 것을 실험적으로 보여줍니다. $\text{Guide}$의 구성 요소를 분석하기 위한 신중한 절제 실험과 $\text{Guide}$의 학습 효율에 대한 이론적 분석을 포함합니다.

시사점, 한계점

시사점:
강화 학습과 검증 가능한 보상을 사용하여 추론 모델의 성능을 향상시키는 새로운 방법 제시.
pass@$k$를 pass@1로 압축하고 모델의 능력을 향상시키는 RLVR의 두 가지 주요 작동 방식 규명.
자연어 안내를 활용하여 추론 모델의 성능을 향상시키는 효과적인 전략 제시.
새로운 온라인 훈련 알고리즘 $\text{Guide}$를 통해 일반화 성능 향상.
다양한 모델 규모에 대한 광범위한 실험적 평가.
한계점:
$\text{Guide}$ 알고리즘의 이론적 분석이 더욱 심화될 필요가 있음.
제한된 도메인 (수학, 과학, 코드) 에서의 실험 결과. 다른 도메인으로의 일반화 가능성에 대한 추가 연구 필요.
대규모 모델에 대한 훈련 및 평가에 드는 높은 비용.
👍