Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning

Created by

Haebom

저자

Yixuan Even Xu, Yash Savani, Fei Fang, J. Zico Kolter

💡 개요

대규모 언어 모델(LLM)의 추론 능력을 향상시키는 RLVR(Reinforcement Learning with Verifiable Rewards) 방식은 롤아웃 생성과 정책 업데이트 간의 계산 및 메모리 비대칭 문제를 겪습니다. 본 논문은 PODS(Policy Optimization with Down-Sampling)를 제안하여, 롤아웃 생성과 정책 업데이트를 분리하고 전략적으로 선택된 롤아웃 부분집합만을 사용하여 학습함으로써 업데이트 비용을 크게 줄이면서도 학습 품질을 유지합니다.

🔑 시사점 및 한계

•

PODS는 롤아웃 선택 기준을 통해 보상 다양성을 최대화하여 효율적인 정책 최적화를 가능하게 합니다.

•

제안된 방법론은 기존 GRPO 대비 최대 1.7배 빠른 속도로 최고 성능을 달성하며, 다양한 추론 벤치마크 및 하드웨어 구성에서 효과적임을 입증했습니다.

•

향후 연구에서는 롤아웃 선택 기준의 일반화 및 더욱 다양한 LLM 작업에 대한 PODS의 적용 가능성을 탐구할 수 있습니다.

PDF 보기

Made with Slashpage