Cet article présente un cadre d'évaluation contrôlé pour évaluer la capacité des modèles linguistiques à grande échelle (MLE) à asseoir leur cohérence de manière cohérente et logique dans des environnements multilingues. Nous générons des paires prémisses-hypothèses synthétiques, basées sur la logique, traduites dans un ensemble de langues morphologiquement diverses et effectuons des tests dans des conditions monolingues et mixtes (alternance de code). Nous démontrons le résultat surprenant selon lequel l'alternance de code peut améliorer les performances plutôt que les dégrader, suggérant que les changements lexicaux induits par la traduction peuvent servir de signaux régulateurs. Nous vérifions la fidélité des paires traduites à l'aide d'une analyse de similarité basée sur l'intégration et d'une visualisation de l'alignement interlinguistique. En conclusion, nous démontrons le potentiel et les vulnérabilités de l'inférence interlinguistique actuelle dans les MLE et présentons l'alternance de code comme une approche prometteuse pour améliorer la robustesse multilingue.