본 논문은 강화 학습(RL)을 이용하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 연구에 대해 다룹니다. 특히, 기존의 GRPO(Group Relative Policy Optimization) 방법의 효율성을 제고하기 위해, 저확률 토큰의 큰 기울기가 모델 업데이트에 불균형적으로 영향을 미치는 문제점을 지적합니다. 이 문제를 해결하기 위해, 저확률 토큰의 기울기를 감쇠시키고 고확률 토큰의 기울기를 강조하는 두 가지 새로운 방법인 Advantage Reweighting과 Low-Probability Token Isolation (Lopti)을 제안합니다. 실험 결과, 제안된 방법들은 GRPO로 학습된 LLM의 성능을 최대 46.2% 향상시키는 것을 보여주며, 특히 K&K Logic Puzzle 추론 과제에서 효과적임을 입증합니다. 소스 코드는 깃허브에 공개되어 있습니다.