Cet article propose un nouveau cadre pour relever les défis de la détection des troubles cognitifs légers (TCL) par le biais de descriptions d'images dans des environnements multilingues et multi-images. Contrairement aux études précédentes qui se concentraient principalement sur les descriptions d'images uniques pour les anglophones, cet article prend en compte les utilisateurs multilingues et les images multiples et présente trois composantes : l'apprentissage contrastif supervisé pour améliorer l'apprentissage discriminatif des représentations, l'intégration des modalités d'images et une stratégie de Produit d'Experts (PoE) pour atténuer les corrélations parasites et le surapprentissage. Le cadre proposé améliore le rappel moyen non pondéré (UAR) de 7,1 % (de 68,1 % à 75,2 %) et le score F1 de 2,9 % (de 80,6 % à 83,5 %) par rapport aux repères unimodaux textuels existants. De plus, la composante d'apprentissage contrastif démontre des gains de performance plus importants pour le texte que pour la parole.