본 논문은 대규모 추론 모델(LRM)의 과도한 추론 문제(overthinking)를 해결하기 위한 효율적인 파이프라인인 ThoughtMani를 제안합니다. LRM은 여러 작업에서 추론 능력을 향상시키기 위해 테스트 시간 계산을 확장하지만, 불필요한 추론 단계를 생성하여 성능 향상은 제한적이고 계산 비용이 증가하는 과도한 추론 문제를 겪습니다. 기존 연구는 미세 조정을 통해 이 문제를 완화하려 하지만, 추가 데이터, 비정형적인 학습 설정, 안전 정렬 위험, 일반화 성능 저하 등의 문제가 있습니다. ThoughtMani는 소규모 모델이 생성한 외부 CoT(Chain-of-Thought)를 LRM의 사고 토큰($\texttt{}$ and $\texttt{)}$ 사이에 배치하여 모델이 불필요한 중간 단계를 건너뛰도록 조작하는 방식으로, 계산 비용을 상당히 줄이면서 성능은 유지합니다. 실험 결과, LiveBench/Code 데이터셋에서 QwQ-32B에 적용 시 출력 토큰 수를 약 30% 줄이고 안전 정렬을 평균 10% 향상시키는 것으로 나타났습니다. 다양한 크기의 모델을 제공하는 모델 공급업체에게 ThoughtMani는 보다 효율적이고 접근 가능한 LRM을 실제 응용 프로그램에 구축할 수 있는 효과적인 방법을 제공합니다.