대규모 추론 모델이 영어로 긴 연쇄적 사고(CoT)를 생성하는 놀라운 능력을 보여주었지만, 이러한 장기적 추론 능력이 전 세계 언어의 대다수로 어떻게 이전되는지에 대한 이해는 부족하다. 본 연구에서는 모델 개발의 네 가지 주요 단계(확장, 사전 훈련, 사후 훈련 및 추론)를 체계적으로 조사하여 긴 CoT 기능이 영어를 넘어 어떻게 확장되는지 이해하고자 한다. 우리는 9개의 비영어 대상 언어에 대해 두 가지 추론 설정을 비교한다: En-CoT(모델이 대상 언어 입력을 처리하지만 영어로 추론함) 및 Target-CoT(모델이 입력을 처리하고 대상 언어로 긴 CoT를 생성함). 모델 크기를 확장하면 En-CoT에서 다국어 작업 성능이 향상되지만 Target-CoT 성능은 뒤쳐진다. 이 격차는 수학적 추론과 같이 길고 다단계의 CoT가 필요한 작업에서 더욱 커진다. 사전 훈련으로 전환하면, 특화된 추론 단계를 추가하면 En-CoT 성능이 향상되지만 Target-CoT는 저하되는 반면, 광범위한 다국어 사전 훈련은 두 모드를 동시에 개선한다. 영어 이외의 언어에서 고품질 추론 추적이 부족하기 때문에, 사후 훈련을 위한 합성 데이터 큐레이션 접근 방식을 탐구한다. 우리는 금자 영어 추적에서 자동 번역된 추적에 대한 미세 조정이 대규모 추론 모델에서 추출된 대상 언어 추적에 대한 미세 조정보다 더 나은 성능을 보임을 보여준다. 마지막으로, 우리는 언어 간 추론 효율성의 불일치를 보고하고 CoT에서 언어별 실패 모드를 발견한다. 추가 연구를 위해 모델, 데이터 세트 및 코드를 공개한다.