본 연구는 대규모 언어 모델의 긴 사고 연쇄(Chain-of-Thought, CoT) 추론 능력이 영어 외 언어로 얼마나 확장되는지를 체계적으로 조사합니다. 이를 위해 영어로 추론하고 다른 언어로 입력받는 방식(En-CoT)과, 입력 및 추론 모두를 대상 언어로 수행하는 방식(Target-CoT)을 비교 분석했습니다. 연구 결과, 모델 크기 확장은 En-CoT 성능을 향상시키지만 Target-CoT 성능은 뒤처지며, 특히 복잡한 다단계 추론에서 이러한 격차가 심화됨을 발견했습니다.