본 논문은 추론 과정에서 많은 토큰을 생성함으로써 어려운 추론 과제에서 높은 성능을 달성하는 대규모 추론 모델(LRM)의 단점을 해결하기 위한 새로운 방법인 적응형 길이 페널티(ALP)를 제시한다. 기존의 짧은 추적에 대한 지도 학습 미세 조정, 사용자 제어 예산, 균일한 페널티를 사용한 강화 학습과 같은 해결책은 데이터 큐레이션, 수동 구성 또는 어려움에 관계없이 모든 문제를 동일하게 취급하는 등의 문제점이 있다. ALP는 각 프롬프트의 온라인 해결률에 따라 생성 길이를 조정하는 강화 학습 목표 함수이다. 훈련 중 ALP는 여러 번의 롤아웃을 통해 각 프롬프트의 온라인 해결률을 모니터링하고, 크기가 해결률에 반비례하는 미분 가능한 페널티를 추가한다. 따라서 확신할 수 있는(쉬운) 프롬프트는 추가 토큰에 대해 높은 비용을 부담하는 반면 어려운 프롬프트는 방해받지 않는다. ALP를 사용하여 DeepScaleR-1.5B를 사후 훈련하면 성능 저하 없이 평균 토큰 사용량을 50% 줄일 수 있다. 고정 예산 및 균일 페널티 기준선과 비교하여 ALP는 쉬운 프롬프트의 계산을 줄이고 절약된 토큰을 어려운 프롬프트에 재할당함으로써 더 지능적으로 감소된 예산을 재분배하여 더 높은 비용으로 가장 어려운 문제에 대해 더 높은 정확도를 제공한다.