본 논문은 Chain of Thought (CoT)를 사용한 대규모 언어 모델(LLM)의 성능 향상에 대한 연구입니다. 기존 연구에서 Transformer는 계산적으로 어려운 문제를 해결할 수 없다는 한계가 있었으나, CoT를 통해 $k$-parity 문제와 같은 어려운 문제를 효과적으로 해결할 수 있음을 보였습니다. 하지만 기존 연구는 동일한 훈련 및 테스트 분포와 오류 없는 훈련 데이터라는 가정에 의존했습니다. 본 논문은 실제 환경에서는 이러한 가정이 항상 성립하지 않으므로, 데이터 분포 변화와 데이터 오염이라는 두 가지 유형의 데이터 변화가 CoT 기반 모델의 성능에 미치는 영향을 $k$-parity 문제를 중심으로 엄밀하게 연구합니다. CoT가 직접 예측하는 것보다 parity 학습에서 더 나쁜 성능을 보이는 놀라운 현상을 밝히고, 그 메커니즘에 대한 엄밀하고 포괄적인 설명을 제공합니다.