본 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 향상시키기 위해, 루브릭을 활용한 새로운 강화 학습(RL) 프레임워크인 RGR-GRPO (Reward and Guidance through Rubrics)를 제안합니다. RGR-GRPO는 세분화된 보상 신호와 오프라인 지침을 제공하여, LLM이 더 넓은 솔루션 공간을 탐색하도록 돕습니다. 14개의 다양한 도메인 벤치마크를 통해 RGR-GRPO가 기존의 RL 방법론보다 우수한 성능을 보임을 입증했습니다.