Cet article souligne que malgré les progrès rapides des applications pratiques des modèles linguistiques multimodaux à grande échelle (MLLM), l'obtention de performances cohérentes entre les langues demeure un défi majeur, notamment lors de l'intégration des connaissances culturelles. Pour mieux évaluer ce problème, les chercheurs présentent deux nouveaux benchmarks : KnowRecall, un benchmark de questions-réponses visuelles axé sur des questions culturelles et historiques dans 15 langues, et VisRecall, qui tente de décrire l'apparence de points de repère dans neuf langues sans accès à des images. Les résultats expérimentaux montrent que les MLLM de pointe, y compris les modèles propriétaires, peinent encore à assurer la cohérence interlinguistique. Cela souligne la nécessité d'approches plus robustes pour générer des modèles véritablement multilingues et culturellement adaptés.