Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Created by
  • Haebom

저자

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin

개요

본 논문은 강화 학습(RL)을 사용하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 방법을 제시합니다. 기존의 Group Relative Policy Optimization (GRPO) 방법은 모든 응답이 잘못된 그룹(all-negative-sample groups)에 대해 정책을 업데이트하지 못하는 한계를 가지고 있습니다. 이를 해결하기 위해, 본 논문에서는 단계적 판단 모델(step-wise judge model)을 사용하여 그룹 내 응답의 다양성을 높이는 간단한 프레임워크인 stepwise guided policy optimization (SGPO)를 제안합니다. 이 모델은 기존의 LLM을 활용하거나 직접 훈련될 수 있으며, 간소화된 환경에서 GRPO의 학습 속도를 향상시킨다는 것을 이론적으로 증명합니다. 실험 결과, SGPO는 9개의 벤치마크(기본 및 증류 버전 포함)에서 다양한 크기의 모델(7B, 14B, 32B)에 대해 오프라인 및 온라인 학습 모두에서 GRPO를 능가하며, 특히 all-negative-sample groups가 많은 초기 및 중간 학습 단계에서 성능 향상이 두드러집니다. 또한, SGPO는 정답을 생성하는 판단 모델을 필요로 하지 않아 지식 증류 방법과 차별화됩니다.

시사점, 한계점

시사점:
all-negative-sample groups 문제를 해결하여 강화 학습 기반 LLM의 추론 능력 향상에 기여.
단계적 판단 모델을 활용하여 GRPO의 학습 효율 개선.
다양한 크기의 LLM에서 일관된 성능 향상을 보임.
지식 증류 방법과 달리 정답 생성 모델이 필요 없음.
한계점:
제안된 방법의 효과가 간소화된 환경에서의 이론적 증명에만 국한될 수 있음.
단계적 판단 모델의 설계 및 훈련에 대한 추가적인 연구가 필요할 수 있음.
더욱 다양하고 복잡한 벤치마크에 대한 추가적인 실험이 필요할 수 있음.
👍