Este artículo presenta un marco de evaluación controlado para evaluar la capacidad de los modelos lingüísticos a gran escala (LLM) para fundamentar de forma consistente y lógica su consistencia en entornos multilingües. Generamos pares premisa-hipótesis sintéticos, basados en la lógica, traducidos a un conjunto morfológicamente diverso de idiomas y realizamos pruebas tanto en condiciones monolingües como en idiomas mixtos (alternativa de código). Demostramos el sorprendente resultado de que la alternancia de código puede mejorar el rendimiento en lugar de degradarlo, lo que sugiere que los cambios léxicos inducidos por la traducción pueden servir como señales reguladoras. Verificamos la fidelidad de los pares traducidos mediante análisis de similitud basado en incrustación y visualización de alineamiento entre idiomas. En conclusión, demostramos el potencial y las vulnerabilidades de la inferencia entre idiomas actual en los LLM y presentamos la alternancia de código como un enfoque prometedor para mejorar la robustez multilingüe.