Sign In

Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration

Created by
  • Haebom
Category
Empty

저자

Yan Sun, Jia Guo, Stanley Kok, Zihao Wang, Zujie Wen, Zhiqiang Zhang

개요

본 연구는 검증 가능한 보상 기반 강화 학습(RLVR)의 데이터 효율성을 개선하기 위해, 훈련 중 거의 비용 없이 얻을 수 있는 고유 데이터 속성을 활용하는 방법을 제시한다. PREPO라는 두 가지 구성 요소(프롬프트 혼란도 기반 학습 순서 조정 및 상대 엔트로피 차이를 통한 롤아웃 차별화)를 제안하며, 이를 통해 롤아웃 요구량을 줄이면서도 경쟁력 있는 성능을 유지한다. Qwen 및 Llama 모델을 대상으로 한 실험에서 PREPO는 수학적 추론 벤치마크에서 기존 방법론보다 최대 3배 적은 롤아웃으로 효과적인 결과를 달성했다.

시사점, 한계점

시사점:
RLVR의 데이터 효율성 향상을 위한 새로운 접근 방식 제시 (PREPO)
프롬프트 혼란도와 상대 엔트로피를 활용하여 롤아웃 효율성 개선
수학적 추론 벤치마크에서 기존 방법론 대비 우수한 성능
이론적 분석을 통해 방법론의 타당성 설명
한계점:
구체적인 한계점은 논문 내용에 명시되지 않음 (추가 정보 필요)
모델과 벤치마크에 국한된 실험 결과 (일반화 가능성 추가 검증 필요)
👍