본 논문은 Chain-of-Thought (CoT) 프롬프팅을 통해 Large Language Model (LLM)의 성능 향상이 관찰되는 현상에 대해, 데이터 분포의 관점에서 분석합니다. CoT 추론이 훈련 데이터로부터 학습된 구조적 귀납적 편향을 반영하여, 훈련 데이터와 유사한 테스트 질의에 대해서만 유효한 추론 경로를 생성한다는 가설을 제시합니다. 이를 검증하기 위해, DataAlchemy라는 제어된 환경에서 LLM을 훈련시키고, 작업, 길이, 형식 세 가지 차원에서 다양한 분포 조건 하에 LLM을 시험합니다. 결과적으로, CoT 추론은 훈련 데이터 분포를 벗어나면 효과가 사라지는 취약한 현상임을 밝힙니다. 이는 진정하고 일반화 가능한 추론을 달성하는 데 있어 지속적인 어려움을 강조합니다.