본 논문은 대규모 추론 모델(LRMs)의 과도한 추론 문제를 해결하기 위해 Think-How-to-Think (TH2T)라는 새로운 두 단계 미세 조정 전략을 제안합니다. TH2T는 먼저 어려움 수준에 대한 인식을 모델에 주입하여 추론 깊이를 조절하고, 다음으로 중간 추론 단계에서 불필요한 추론 패턴을 식별하고 제거하는 과정을 통해 과도한 추론을 줄입니다. 짧고 긴 추론 경로를 혼합한 데이터셋을 사용하여 훈련되며, 7B, 14B, 32B 모델 실험 결과 쉬운 작업에서는 70% 이상, 어려운 작업에서는 40% 이상 추론 비용을 절감하면서 성능을 유지하는 것을 보여줍니다.