Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models

Created by
  • Haebom

저자

Muzhi Dai, Chenxu Yang, Qingyi Si

개요

본 논문은 대규모 언어 모델의 추론 능력 향상을 위한 Test-Time Scaling 연구에서, 과도한 사고 과정(overthinking) 문제를 해결하는 새로운 강화 학습 방식인 S-GRPO(Serial-Group Decaying-Reward Policy Optimization)를 제시합니다. 기존의 결과 기반 강화 학습 방식의 한계를 극복하기 위해, S-GRPO는 중간 추론 단계의 충분성을 평가하여 사고 과정을 조기에 종료하도록 유도합니다. 병렬적으로 여러 추론 경로를 샘플링하는 기존 GRPO와 달리, S-GRPO는 하나의 추론 경로를 순차적으로 샘플링하고, 해당 경로에서 여러 시점을 선택하여 사고를 종료하고 답변을 생성합니다. 정답에 대한 보상은 추론 경로의 앞에서 뒤로 갈수록 점차 감소하여, 정확하고 간결한 사고와 적절한 시점의 사고 종료를 유도합니다. Qwen3 및 Deepseek-distill과 같은 최첨단 추론 모델에 적용하여 GSM8K, AIME 2024, AMC 2023, MATH-500, GPQA Diamond 등 다양한 벤치마크에서 시퀀스 길이를 35.4%61.1% 감소시키면서 정확도를 0.72%6.08% 향상시키는 결과를 보였습니다.

시사점, 한계점

시사점:
과도한 사고 과정(overthinking) 문제를 해결하는 새로운 강화 학습 방식 S-GRPO 제시.
기존 모델의 추론 효율성을 크게 향상시키면서 정확도 개선. (시퀀스 길이 감소 및 정확도 향상)
다양한 최첨단 추론 모델과 벤치마크에서 효과 검증.
중간 추론 단계의 효율적인 평가 및 조기 종료 메커니즘의 가능성 제시.
한계점:
S-GRPO의 성능 향상이 특정 모델 및 벤치마크에 국한될 가능성.
S-GRPO의 일반화 성능에 대한 추가적인 연구 필요.
다른 Test-Time Scaling 기법과의 비교 분석 필요.
S-GRPO의 계산 비용 및 복잡도에 대한 분석 필요.
👍