본 논문은 대규모 추론 모델(LRMs)의 확장된 사고연쇄(CoT) 추론 과정에서 발생하는 과도한 계산 비용을 줄이기 위한 효율적인 프레임워크 TrimR을 제안한다. TrimR은 사전 훈련된 검증기를 사용하여 LRM이 생성하는 중복된 사고 과정을 제거함으로써 추론 시간을 단축시킨다. 이는 LRM이나 검증기의 추가적인 미세 조정 없이 이루어지며, 특히 대규모 배치 작업 환경에서 효율성을 높이는 데 초점을 맞추고 있다. Ascend NPUs와 vLLM을 사용한 실험 결과, MATH500, AIME24, AIME25, GPQA 벤치마크에서 Pangu-R-38B, QwQ-32B, DeepSeek-R1-Distill-Qwen-32B 모델의 추론 시간을 최대 70%까지 단축시키는 동시에 정확도 저하를 최소화하는 것을 확인하였다.