본 논문은 대규모 추론 모델(LRM)의 추론 효율성을 향상시키는 새로운 프레임워크인 TrimR을 제안합니다. TrimR은 사전 훈련된 검증기를 사용하여 LRM이 생성하는 중복된 사고 과정(CoT)을 제거함으로써 추론 시간을 단축시킵니다. 이는 인간의 인지 추론 과정과 수치적 최적화 이론에서 영감을 받았으며, LRM이나 검증기의 추가적인 미세 조정 없이 작동합니다. 특히 대규모 배치 작업 환경에서 Ascend NPUs 및 vLLM 상에서 상당한 추론 효율 향상을 보이며, MATH500, AIME24, AIME25, GPQA 벤치마크에서 최대 70%의 추론 시간 단축을 달성합니다. TrimR은 고처리량 산업 애플리케이션을 위해 설계된 동기 비동기 온라인 시스템을 포함합니다.