본 논문은 수치적 피드백만을 사용하는 강화학습(RL)의 세 가지 한계점(성능 정체, 자기 반성의 제한된 효과, 지속적인 실패)을 제시하고, 이를 극복하기 위해 자연어 비판을 통합한 새로운 강화학습 프레임워크인 Critique-GRPO를 제안합니다. Critique-GRPO는 수치적 피드백과 자연어 비판을 동시에 활용하여 정책 최적화를 수행하며, 특히 정답에 대한 보상을 강화하고 오답에 대한 패널티를 부여하는 shaping function을 사용합니다. Qwen2.5-7B-Base, Qwen2.5-Math-7B-Base, Qwen3-8B 모델을 사용한 실험 결과, Critique-GRPO는 기존의 지도 학습 및 RL 기반 미세 조정 방법보다 8가지 다양한 추론 과제에서 성능이 우수함을 보였으며, 특히 자기 비판을 통한 자기 개선 및 약한 일반화에서 강한 일반화로의 전이 학습에서 효과적임을 확인했습니다.