본 논문은 강화 학습(RL) 기반의 대규모 추론 모델(LRM)의 효율성 향상을 연구합니다. LRM은 복잡한 문제 해결에 뛰어난 능력을 보이지만, 긴 추론 과정으로 인해 불필요한 중복이 발생하는 문제점이 있습니다. 이를 해결하기 위해, 논문에서는 길이 기반 보상 설계라는 통합 프레임워크를 제시하고, 단계 함수를 이용한 새로운 보상 방법인 LASER를 제안합니다. LASER는 성능과 효율성 간의 균형을 최적화합니다. 더 나아가, 모델의 학습 과정과 문제의 난이도를 고려하여 보상을 동적으로 조절하는 LASER-D를 제안합니다. 실험 결과, LASER-D는 DeepSeek-R1-Distill-Qwen 모델들에서 성능 향상과 토큰 사용량 감소를 동시에 달성했습니다. 예를 들어, AIME2024에서 +6.1의 성능 향상과 63%의 토큰 사용량 감소를 보였습니다. 이는 중복적인 자기 반추를 줄이고 간결한 추론 패턴을 생성함으로써 달성되었습니다.