본 논문은 대규모 언어 모델의 추론 과정에서 연산 비용을 줄이기 위한 새로운 방법인 '사고 보정(thought calibration)'을 제안합니다. 기존의 장시간 추론을 통한 성능 향상은 높은 연산 비용을 수반하는데, 본 논문에서는 언어 모델의 사고 과정을 중첩된 추론 트리로 보고, 새로운 추론이 더 이상 이루어지지 않는 시점을 파악하여 추론을 조기에 종료하는 방법을 제시합니다. 경량 프로브를 활용하여 언어 모델의 은닉 표현을 분석하고, 추론 구조와 응답의 일관성을 평가하여 사고 보정을 수행합니다. 실험 결과, 세 가지 추론 언어 모델과 네 가지 데이터셋을 사용하여, 사고 보정은 기존 데이터에서는 최대 60%, 새로운 데이터에서는 최대 20%까지 추론 토큰 수를 줄이면서도 모델 성능을 유지하는 것을 보여줍니다.