대규모 추론 모델(LRM)은 복잡한 작업에서 강력한 성능을 보이지만, 과도한 장황함, 즉 "과잉 사고"로 어려움을 겪습니다. 강화 학습(RL)을 통한 기존 해결책은 일반적으로 간결성을 위해 생성된 토큰에 페널티를 부과합니다. 그러나 이러한 방법은 두 가지 문제에 직면합니다. 더 적은 토큰의 응답이 항상 더 적은 추론 단계를 의미하지 않으며, 모델은 토큰 사용을 최소화하기 위해 추론 단계를 삭제하여 훈련 후반부에 해킹 행동을 보일 수 있습니다. 본 연구에서는 컴팩트한 추론 단계를 선호함으로써 LRM을 보다 효율적인 추론으로 유도하는 RL 프레임워크인 Step Pruner(SP)를 소개합니다. 단계 인식 보상 함수는 정답률을 우선시하는 동시에 중복 단계에 대한 페널티를 부과하고, 잘못된 추론의 강화 방지를 위해 부정확한 응답에 대한 보상을 보류합니다. 또한, 모델의 출력이 더 이상 짧아지지 않으면 단계 병합으로 인한 해킹 행동을 방지하기 위해 훈련을 중단하는 동적 중단 메커니즘을 제안합니다. 네 가지 추론 벤치마크에 대한 광범위한 실험을 통해 SP는 응답 길이를 크게 줄이면서 최첨단 정확도를 달성함을 보여줍니다. 예를 들어, AIME24에서 SP는 토큰 사용을 69.7% 줄입니다.