Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration
Created by
Haebom
Category
Empty
저자
Yan Sun, Jia Guo, Stanley Kok, Zihao Wang, Zujie Wen, Zhiqiang Zhang
개요
본 연구는 검증 가능한 보상 기반 강화 학습(RLVR)의 데이터 효율성을 개선하기 위해, 훈련 중 거의 비용 없이 얻을 수 있는 고유 데이터 속성을 활용하는 방법을 제시한다. PREPO라는 두 가지 구성 요소(프롬프트 혼란도 기반 학습 순서 조정 및 상대 엔트로피 차이를 통한 롤아웃 차별화)를 제안하며, 이를 통해 롤아웃 요구량을 줄이면서도 경쟁력 있는 성능을 유지한다. Qwen 및 Llama 모델을 대상으로 한 실험에서 PREPO는 수학적 추론 벤치마크에서 기존 방법론보다 최대 3배 적은 롤아웃으로 효과적인 결과를 달성했다.