본 논문은 대규모 추론 모델의 Chain of Thought (CoT)가 실제로 어떻게 모델 성능에 영향을 미치는지에 대한 연구를 수행한다. 특히, 형식적으로 검증 가능한 추론 흔적(reasoning trace)을 사용하여 변환기 모델을 처음부터 학습시키는 통제된 연구를 통해, end-user semantics가 추론 흔적에 미치는 영향을 조사한다. 모델이 정확한 흔적을 사용하여 학습되었음에도 불구하고, 유효하지 않은 추론 흔적을 생성할 수 있음을 발견했다. 또한, 부패된 흔적(corrupted traces)으로 학습된 모델이 정확한 흔적으로 학습된 모델과 유사한 성능을 보이며, out-of-distribution 작업에서 더 나은 일반화를 보였다. GRPO-기반 RL 후속 학습이 흔적의 유효성에 미치는 영향과, 추론 흔적 길이가 문제의 계산 복잡성을 반영하는지에 대한 연구 결과도 제시한다.