본 논문은 대규모 추론 모델의 최근 성공이 Chain of Thought (CoT) 및 기본 LLM에서 샘플링된 CoT에 대한 훈련 과정의 승리로 해석되는 것에 대해 비판적으로 검토합니다. 연구진은 중간 토큰의 의미(흔히 "생각" 또는 추론 흔적으로 의인화되고 백트래킹, 자기 검증과 같은 행동을 보이는 것으로 주장됨)가 실제로 모델 성능에 어떻게 영향을 미치는지 조사합니다. 형식적으로 검증 가능한 추론 흔적과 솔루션에 대해 변환기 모델을 훈련시키고, 중간 단계와 최종 출력 모두 형식 솔버(본 연구에서는 A* 검색)의 결과와 일치하도록 제약합니다. 문제와 의도된 알고리즘의 의미를 형식적으로 해석함으로써 솔루션 정확도뿐만 아니라 중간 흔적의 정확성도 체계적으로 평가하여 후자가 전자에 인과적으로 영향을 미치는지 평가합니다. 솔루션 전용 기준선에 비해 상당한 개선에도 불구하고, 완전히 정확한 흔적에 대해 훈련된 모델조차도 정확한 솔루션에 도달할 때 유효하지 않은 추론 흔적을 생성하는 것을 확인했습니다. 흔적 정확도가 솔루션 정확도와 느슨하게만 연결되어 있음을 더 보여주기 위해, 연구진은 각각 쌍을 이루는 특정 문제와 관련이 없는 잡음이 포함된 손상된 흔적에 대해 모델을 훈련시켰는데, 성능이 정확한 데이터로 훈련된 모델과 크게 일치할 뿐만 아니라 경우에 따라 개선되고 분포 외 작업에서 더 강력하게 일반화될 수 있음을 발견했습니다. 이러한 결과는 중간 토큰 또는 "Chain of Thought"가 예측 가능한 추론 행동을 유발한다는 가정에 의문을 제기하고, 그러한 출력을 의인화하거나 (대부분 정확한 형태에도 불구하고) 언어 모델에서 인간과 같은 또는 알고리즘적 행동의 증거로 과도하게 해석하는 것에 대해 경고합니다.