Chain-of-thought (CoT) 감독 학습이 변환기(transformer)의 성능을 크게 향상시킬 수 있지만, 모델이 CoT를 따르고 이점을 얻는 메커니즘은 잘 알려져 있지 않습니다. 본 연구에서는 알고리즘 복잡도가 조절 가능한 기호적 추론 작업을 수행하고 데이터 구성을 제어하여 일반화를 연구함으로써 그로킹(grokking)의 관점에서 이러한 학습 역학을 조사합니다. 모델은 (i) 최종 답만 생성하는 설정과 (ii) 답하기 전에 명시적인 CoT 추적을 생성하는 두 가지 설정으로 훈련되었습니다. 연구 결과 CoT가 일반적으로 작업 성능을 향상시키지만, 그 이점은 작업 복잡성에 따라 달라집니다. 이러한 효과를 정량화하기 위해, 3개의 매개변수를 갖는 로지스틱 곡선을 사용하여 로그 학습 단계의 정확도를 모델링하여 학습 속도와 모양이 작업 복잡성, 데이터 분포 및 CoT 감독의 유무에 따라 어떻게 변하는지 밝혀냈습니다. 또한, 초기 훈련 단계에서 모델이 CoT 단계를 건너뛰거나 모순되면서도 정답을 제시하다가, 나중에 추론 추적을 정답과 일치시키는 과도적인 추적 불성실 단계도 발견했습니다. 경험적으로, (1) CoT가 일반화를 가속화하지만, 목록 교차점 찾기와 같은 더 높은 알고리즘 복잡성을 가진 작업은 극복하지 못함을 보여줍니다; (2) 변환기 학습을 이해하기 위한 운동 모델링 프레임워크를 소개합니다; (3) 추적 성실성이 훈련을 통해 나타나는 동적 속성임을 특징짓습니다; (4) CoT가 내부 변환기 계산을 기계적으로 변경함을 보여줍니다.