본 논문은 다국어 대규모 언어 모델(LLM)의 사고 과정(CoT)에서 우세한 사전 훈련 언어로 회귀하는 현상인 '다국어 붕괴(Cross-lingual Collapse)'를 확인합니다. 강화 학습 기반의 대규모 추론 모델(LRM)은 중간 추론 과정을 노출시켜 강력한 논리적 추론 성능을 달성하지만, 다국어 추론 메커니즘은 아직 완전히 밝혀지지 않았습니다. 본 연구는 중국어, 한국어, 우크라이나어로 번역된 GSM8K 및 SimpleRL-Zoo 데이터셋을 사용하여 다국어 LRM을 GRPO(Group-Relative Policy Optimization)로 미세 조정하며, 작업 정확도와 추론 과정의 언어 일관성을 모니터링했습니다.