본 논문은 대규모 언어 모델(LLM)의 확장 사고 연쇄(CoT) 추론 과정에서 발생하는 과도한 중복을 해결하기 위해, 추론 구조를 실행, 반성, 전환 사고의 세 가지 유형으로 분류하고, 과도한 반성 및 전환 사고가 실패와 강하게 상관관계가 있음을 밝힙니다. 이를 바탕으로, 사전 훈련 없이 CoT 과정을 보정하는 SEAL (Steerable reasoning calibration) 기법을 제시합니다. SEAL은 잠재 공간에서 추론 조향 벡터를 추출하고, 이를 사용하여 추론 과정을 실시간으로 보정하는 방식으로, 정확도 향상과 효율성 증대를 동시에 달성합니다. 다양한 모델과 벤치마크에서 실험을 통해 최대 11%의 정확도 향상과 11.8%~50.4%의 추론 토큰 감소를 확인하였습니다.