본 논문은 수치적 피드백만을 사용하는 강화 학습(RL)의 세 가지 주요 과제(성능 정체, 자기 반성의 제한된 효과, 지속적인 실패)를 제시하고, 이를 해결하기 위해 자연어 비판을 통한 수정을 활용하는 Critique-GRPO라는 온라인 RL 프레임워크를 제안합니다. Critique-GRPO는 자연어 및 수치적 피드백을 통합하여 정책 최적화를 수행하며, Qwen2.5-7B-Base 및 Qwen3-8B-Base를 사용한 실험 결과, 기존의 지도 학습 및 RL 기반 미세 조정 방식보다 8가지 어려운 수학, STEM 및 일반 추론 과제에서 평균 pass@1 점수를 약 4.5% 및 5% 향상시키는 것으로 나타났습니다. 또한, 높은 엔트로피가 항상 효율적인 탐색 학습을 보장하는 것은 아니며, 긴 응답이 더 효과적인 탐색으로 이어지는 것은 아니라는 두 가지 중요한 통찰력을 제시합니다.