Cet article met en évidence les défis liés à l'obtention de performances cohérentes entre les langues, notamment lors de l'intégration de connaissances culturelles, dans les applications concrètes des modèles linguistiques multimodaux à grande échelle (MLLM). Pour évaluer ce défi, nous présentons deux nouveaux benchmarks : KnowRecall, un benchmark de questions-réponses visuelles axé sur des questions culturelles et historiques en 15 langues, et VisRecall, qui évalue la cohérence de la mémoire visuelle dans neuf langues décrivant des apparitions de monuments sans accès à des images. Les résultats expérimentaux montrent que même les MLLM les plus performants peinent à assurer la cohérence interlinguistique, soulignant la nécessité d'approches plus robustes pour générer des modèles véritablement multilingues et culturellement sensibles.