Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ScRPO: From Errors to Insights

Created by
  • Haebom
Category
Empty

저자

Lianrui Li, Dakuan Lu, Jiawei Shao, Chi Zhang, Xuelong Li

개요

본 논문은 자기 성찰과 오류 수정을 활용하여 어려운 수학 문제에 대한 대형 언어 모델의 성능을 향상시키기 위한 새로운 강화 학습 프레임워크인 ScRPO(Self-correction Relative Policy Optimization)를 제안합니다. ScRPO는 (1) GRPO를 사용한 시행착오 학습 단계와 오류 풀에서 부정확한 답을 수집하는 단계, (2) 모델이 이전 답이 틀린 이유를 성찰하도록 유도하는 자기 수정 학습 단계로 구성됩니다. Deepseek-Distill-Qwen-1.5B 및 Deepseek-Distill-Qwen-7B 모델을 사용하여 AIME, AMC, Olympiad, MATH-500, GSM8k를 포함한 여러 수학적 추론 벤치마크에서 광범위한 실험을 수행했습니다. 실험 결과는 ScRPO가 여러 후처리 방법을 일관되게 능가함을 보여줍니다.

시사점, 한계점

시사점:
ScRPO는 제한된 외부 피드백만으로도 언어 모델이 어려운 작업에 대해 자체 개선할 수 있도록 하는 유망한 패러다임을 제시합니다.
수학적 추론 벤치마크에서 일관된 성능 향상을 보이며, 대형 언어 모델의 신뢰성과 능력을 향상시키는 데 기여합니다.
한계점:
논문에서 구체적인 한계점은 명시되지 않았습니다.
👍