Understanding R1-Zero-Like Training: A Critical Perspective
Created by
Haebom
저자
Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
개요
본 논문은 대규모 강화 학습(RL)을 통해 지도 학습 없이 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 R1-Zero 방식을 심층적으로 분석합니다. 다양한 기저 모델(DeepSeek-V3-Base, Qwen2.5 등)을 사용하여 사전 학습 특성이 RL 성능에 미치는 영향을 조사하고, GRPO 알고리즘의 최적화 편향을 밝히고 이를 해결하기 위한 새로운 알고리즘인 Dr. GRPO를 제시합니다. 결과적으로, 7B 기저 모델을 사용하여 AIME 2024에서 43.3%의 정확도를 달성하며 새로운 최고 성능을 기록하였고, 최소화된 R1-Zero 레시피를 제안합니다.
시사점, 한계점
•
시사점:
◦
R1-Zero 방식의 핵심 요소인 기저 모델과 RL 알고리즘에 대한 심층 분석을 통해 성능 향상 및 효율 개선을 위한 통찰력 제공.
◦
사전 학습 과정에서의 편향(예: prompt template 없이도 강력한 추론 능력을 보이는 Qwen2.5)에 대한 분석.
◦
GRPO 알고리즘의 최적화 편향을 해결하는 Dr. GRPO 알고리즘 제시 및 토큰 효율 개선.