Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Hard Examples Are All You Need: Maximizing GRPO Post-Training Under Annotation Budgets

Created by
  • Haebom

저자

Benjamin Pikus, Pratyush Ranjan Tiwari, Burton Ye

GRPO 튜닝 효과에 대한 예시 난이도의 영향

개요

언어 모델 미세 조정을 위한 고품질 훈련 예제를 수집하는 것은 비용이 많이 들며, 실제 예산은 획득할 수 있는 데이터 양을 제한합니다. 본 연구에서는 여러 모델과 추론 작업에서 선택 전략 (쉬움, 중간, 어려움, 무작위)을 비교하여 예제 난이도가 GRPO 훈련 효율성에 영향을 미치는지 조사했습니다. 가장 어려운 10%의 예제 (기본 모델이 가장 자주 실패하는 예제)로 훈련하면 최대 47%까지 획기적인 성능 향상을 보이며, 쉬운 예제는 3-15%의 최소한의 개선만을 보였습니다. 이는 GRPO가 학습 신호를 생성하기 위해 결과 분산을 요구하기 때문에 발생합니다. 어려운 예제는 훈련 기간 동안 혼합된 성공/실패 결과를 유지하는 반면, 쉬운 예제는 일관된 성공으로 빠르게 수렴하여 학습 기회를 제거합니다. 또한, 어려운 예제로 훈련된 모델은 더 우수한 out-of-distribution 일반화를 보였으며, 어려운 모델로 훈련된 모델만이 AIME2025 벤치마크에서 의미 있는 이점을 얻었습니다.

시사점, 한계점

예산 제약 시 기본 모델이 어려움을 겪는 예제 수집 및 주석 처리를 우선시해야 함
어려운 예제에 대한 훈련은 GRPO 튜닝에서 거의 모든 학습 가치를 제공함
어려운 예제는 out-of-distribution 일반화 성능 향상에 기여
연구의 한계점은 명시되어 있지 않음 (Abstract에서 언급되지 않음)
👍