Este artículo propone un nuevo marco para abordar los desafíos de la detección del deterioro cognitivo leve (DCL) mediante descripciones de imágenes en entornos multilingües y multiimagen. A diferencia de estudios previos que se centraron principalmente en descripciones de una sola imagen para angloparlantes, este artículo considera usuarios multilingües y múltiples imágenes, y presenta tres componentes: aprendizaje contrastivo supervisado para mejorar el aprendizaje de la representación discriminativa, integración de la modalidad de imagen y una estrategia de Producto de Expertos (PoE) para mitigar las correlaciones espurias y el sobreajuste. El marco propuesto mejora el recuerdo promedio no ponderado (UAR) en un 7,1 % (del 68,1 % al 75,2 %) y la puntuación F1 en un 2,9 % (del 80,6 % al 83,5 %) en comparación con los puntos de referencia unimodales existentes basados solo en texto. Además, el componente de aprendizaje contrastivo demuestra mayores mejoras de rendimiento para el texto que para el habla.