본 논문은 대규모 추론 모델(LRM)의 추론 과정에서 발생하는 과도한 계산 낭비 문제를 해결하기 위해 SmartThinker라는 새로운 프레임워크를 제안합니다. 기존의 전역적 길이 제한 방식은 중요한 추론 단계를 과도하게 축약하는 반면, 중요하지 않은 단계는 불필요한 세부 정보를 유지하는 문제점이 있었습니다. SmartThinker는 두 단계의 학습 가능한 프레임워크로, 각 단계의 중요도에 따라 추론 체인의 길이를 세밀하게 제어합니다. 첫 번째 단계에서는 거절 샘플링과 지도 학습 미세 조정을 통해 모델을 단축된 추론 모드로 적응시키고, 두 번째 단계에서는 단계 수준 길이 제어 정책 최적화(SCPO)를 적용하여 중요한 단계에는 길이를 늘리고 덜 중요한 단계에는 중복성을 줄입니다. SCPO는 온라인 중요도 추정기, 단계 수준 길이 제어 보상 함수, 단계 수준 일반화 이점 추정(S-GAE), 난이도 적응형 클리핑 전략의 네 가지 핵심 구성 요소로 이루어져 있습니다. 다양한 추론 벤치마크와 백본 모델에 대한 실험 결과, SmartThinker는 중복된 추론을 상당히 줄이면서 기존 방법과 비슷하거나 더 나은 성능을 달성함을 보여줍니다.