Este artículo aborda los desafíos de detectar el deterioro cognitivo leve (DCL) mediante descripciones de imágenes en entornos multilingües y con múltiples imágenes. Si bien las investigaciones anteriores se han centrado principalmente en descripciones de una sola imagen para hablantes de inglés, este artículo propone un marco basado en el desafío TAUKDIAL-2024, que incluye usuarios multilingües y múltiples imágenes. Este marco consta de tres componentes: mejorar el aprendizaje de la representación discriminativa mediante aprendizaje contrastivo supervisado, aprovechar la modalidad de la imagen y mitigar las correlaciones espurias y el sobreajuste mediante una estrategia de producto de expertos (PoE). El marco propuesto demuestra una mejora del 7,1 % en el recuerdo promedio no ponderado (UAR) (del 68,1 % al 75,2 %) y una mejora del 2,9 % en la puntuación F1 (del 80,6 % al 83,5 %) en comparación con una línea base unimodal de texto. El componente de aprendizaje contrastivo, en particular, produce mayores mejoras para el texto que para el habla.