본 논문은 대규모 추론 모델에서 Chain of Thought(CoT)의 성공을 재해석하는 연구입니다. 기존 연구는 기본적인 대규모 언어 모델(LLM)에서 샘플링된 CoT를 이용한 훈련이 새로운 추론 패턴을 발견하는 데 도움이 된다고 해석하지만, 본 논문은 중간 토큰(흔히 "생각"이나 추론 과정으로 의인화됨)의 의미가 모델 성능에 미치는 영향을 조사하여 이러한 해석을 비판적으로 검토합니다. 형식적으로 검증 가능한 추론 과정과 해결책으로 변환기 모델을 훈련시키고, 중간 단계와 최종 결과 모두 형식적 해결사(본 연구에서는 A* 탐색)의 결과와 일치하도록 제약을 두었습니다. 문제와 의도된 알고리즘의 의미를 형식적으로 해석함으로써, 해결책의 정확성뿐만 아니라 중간 과정의 정확성도 체계적으로 평가하여 후자가 전자에 인과적으로 영향을 미치는지 평가했습니다. 그 결과, 해결책만을 기준으로 한 기준 모델에 비해 상당한 성능 향상에도 불구하고, 완전히 정확한 과정으로 훈련된 모델도 정확한 해결책에 도달할 때 유효하지 않은 추론 과정을 생성한다는 것을 발견했습니다. 추론 과정의 정확성과 해결책의 정확성 사이의 관계가 느슨하다는 것을 추가로 보여주기 위해, 특정 문제와 관련이 없는 잡음이 포함된 잘못된 과정으로 모델을 훈련시켰는데, 성능이 정확한 데이터로 훈련된 모델과 크게 일치할 뿐만 아니라, 경우에 따라 성능이 향상되고 분포 외 작업에서 더 강력하게 일반화될 수 있음을 발견했습니다. 이러한 결과는 중간 토큰 또는 "Chain of Thought"가 예측 가능한 추론 행동을 유도한다는 가정에 의문을 제기하며, 대부분 정확한 형태에도 불구하고 이러한 출력을 의인화하거나 인간과 유사하거나 알고리즘적인 행동의 증거로 과도하게 해석하는 것에 대한 경고를 합니다.