본 논문은 강화 학습과 규칙 기반 보상을 통합하여 대규모 언어 모델의 추론 능력을 향상시키는 연구를 소개합니다. 특히, 기존 강화 학습 알고리즘(GRPO, DAPO)의 문제점인 롤아웃 수준의 거친 세분성을 해결하기 위해, 토큰별 중요도를 추정하는 새로운 알고리즘인 KTAE(Key-token Advantage Estimation)를 제안합니다. KTAE는 샘플링된 롤아웃의 정확성을 활용하여 각 토큰의 중요도를 파악하고, 이를 롤아웃 수준의 어드밴티지와 결합하여 보다 세분화된 토큰 수준의 어드밴티지를 추정합니다. 실험 결과, GRPO+KTAE 및 DAPO+KTAE를 사용한 모델이 5개의 수학적 추론 벤치마크에서 기존 방법보다 우수한 성능을 보였으며, 짧은 응답으로 더 높은 정확도를 달성했습니다. 심지어 동일한 기본 모델을 사용하여 R1-Distill-Qwen-1.5B를 능가했습니다.