Este artículo aborda que, a pesar del rápido progreso en las aplicaciones prácticas de los modelos lingüísticos multimodales a gran escala (MLLM), lograr un rendimiento consistente en diferentes idiomas sigue siendo un gran desafío, especialmente al incorporar conocimiento cultural. Para evaluar mejor esta cuestión, los investigadores presentan dos nuevos puntos de referencia: KnowRecall, un punto de referencia visual de preguntas y respuestas que se centra en preguntas culturales e históricas en 15 idiomas, y VisRecall, que intenta describir la apariencia de puntos de referencia en nueve idiomas sin acceso a imágenes. Los resultados experimentales muestran que los MLLM de vanguardia, incluidos los modelos propietarios, aún tienen dificultades para lograr consistencia entre idiomas. Esto resalta la necesidad de enfoques más robustos para generar modelos verdaderamente multilingües y culturalmente conscientes.