이 논문은 중국어-영어 이중 언어 추론 모델에서 언어 전환(language switching) 현상을 연구합니다. 강력한 이중 언어 능력을 가진 최신 이중 언어 대규모 언어 모델(LLM)에서 사고 과정 중 언어를 번갈아 사용하는 현상(language mixing)이 관찰되었으며, 이를 DeepSeek-R1 모델에서 억제했을 때 정확도가 저하되는 것을 확인했습니다. 본 연구는 강화 학습과 검증 가능한 보상(RLVR)이 언어 전환을 유발하는 핵심 훈련 단계임을 밝히고, 언어 전환이 추론 능력 향상에 기여함을 실험적으로 증명합니다. 수학 추론 과제에서 단일 언어 디코딩을 강제할 경우 정확도가 5.6% 감소하며, 경량 프로브를 이용하여 언어 전환이 추론에 도움이 될지 해가 될지 예측하고 디코딩에 활용하면 정확도를 최대 6.25% 향상시킬 수 있음을 보였습니다. 결론적으로 언어 전환은 단순한 다국어 훈련의 부산물이 아니라 전략적인 추론 행위임을 시사합니다.