Este artículo estudia el fenómeno del cambio de idioma en modelos de inferencia bilingües chino-inglés. En un modelo de lenguaje bilingüe a gran escala (LLM) de vanguardia con una sólida capacidad bilingüe, se observa mezcla de idiomas durante el proceso de pensamiento, y se confirma que la precisión se reduce cuando se suprime en el modelo DeepSeek-R1. Este estudio revela que el aprendizaje por refuerzo y la recompensa verificable (RLVR) son los pasos clave del entrenamiento que inducen el cambio de idioma, y prueba experimentalmente que el cambio de idioma contribuye a la mejora de la capacidad de inferencia. Cuando se fuerza la decodificación de un solo idioma en una tarea de razonamiento matemático, la precisión disminuye un 5,6%, y cuando se utilizan sondas ligeras para predecir si el cambio de idioma es útil o perjudicial para la inferencia y se utilizan para la decodificación, la precisión puede mejorarse hasta en un 6,25%. En conclusión, se sugiere que el cambio de idioma no es un simple subproducto del entrenamiento multilingüe, sino un comportamiento de inferencia estratégico.