Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

Created by
  • Haebom

저자

Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng

개요

본 논문은 수치적 피드백만을 사용하는 강화 학습(RL)의 세 가지 주요 과제(성능 정체, 자기 반성의 제한된 효과, 지속적인 실패)를 제시하고, 이를 해결하기 위해 자연어 비판을 통한 수정을 활용하는 Critique-GRPO라는 온라인 RL 프레임워크를 제안합니다. Critique-GRPO는 자연어 및 수치적 피드백을 통합하여 정책 최적화를 수행하며, Qwen2.5-7B-Base 및 Qwen3-8B-Base를 사용한 실험 결과, 기존의 지도 학습 및 RL 기반 미세 조정 방식보다 8가지 어려운 수학, STEM 및 일반 추론 과제에서 평균 pass@1 점수를 약 4.5% 및 5% 향상시키는 것으로 나타났습니다. 또한, 높은 엔트로피가 항상 효율적인 탐색 학습을 보장하는 것은 아니며, 긴 응답이 더 효과적인 탐색으로 이어지는 것은 아니라는 두 가지 중요한 통찰력을 제시합니다.

시사점, 한계점

시사점:
수치적 피드백만으로는 한계가 있는 RL의 문제점을 지적하고, 자연어 비판을 통한 수정이 성능 향상에 효과적임을 보여줌.
Critique-GRPO 프레임워크가 기존 RL 기법보다 우수한 성능을 보임.
RL에서 탐색 전략의 효율성에 대한 새로운 통찰력 제공 (높은 엔트로피나 긴 응답이 항상 효과적인 것은 아님).
한계점:
제시된 8가지 과제 외 다른 유형의 문제에 대한 일반화 성능은 추가 연구가 필요함.
Critique-GRPO의 계산 비용 및 효율성에 대한 더 자세한 분석이 필요함.
자연어 비판의 질에 따라 성능이 영향받을 수 있으므로, 비판의 질을 향상시키는 방법에 대한 추가 연구가 필요함.
👍