본 논문은 검증 가능한 보상(verifiable rewards)을 사용하는 강화 학습(RL)을 통해 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 연구에 초점을 맞추고 있다. 특히, 추론 단계가 중복되거나 관련 없는 '과잉 사고(overthinking)' 현상으로 인한 계산 비용 증가 문제를 해결하고자 한다. 이를 위해, 추론 경로의 간결성을 평가하는 간결성 보상 모델(CRM)을 훈련시키는 파이프라인과 결과 보상과 간결성 점수 간의 명시적 종속성을 갖는 새로운 간결성 보상 함수(CRF)를 제안한다. 이론적 측면에서, CRF는 분산 감소 및 향상된 수렴 특성을 보인다. 실험 결과, 수학적 벤치마크 데이터셋에서 Qwen2.5-7B 모델의 정확도를 8.1% 향상시키고 응답 토큰 길이를 19.9% 감소시키는 효과를 보였으며, Llama 및 Mistral과 같은 다른 LLM에도 일반화되었다.