Cet article aborde les défis de la détection des troubles cognitifs légers (TCL) par le biais de descriptions d'images dans des environnements multilingues et multi-images. Alors que les recherches précédentes se concentraient principalement sur les descriptions d'images uniques pour les anglophones, cet article propose un cadre basé sur le défi TAUKDIAL-2024, qui inclut des utilisateurs multilingues et des images multiples. Ce cadre comprend trois volets : l'amélioration de l'apprentissage discriminatif des représentations par l'apprentissage contrastif supervisé, l'exploitation de la modalité image et l'atténuation des corrélations parasites et du surapprentissage par une stratégie de Produit d'Experts (PoE). Le cadre proposé démontre une amélioration de 7,1 % du Rappel Moyen Non Pondéré (RMO) (de 68,1 % à 75,2 %) et de 2,9 % du score F1 (de 80,6 % à 83,5 %) par rapport à une base de référence unimodale de texte. La composante d'apprentissage contrastif, en particulier, produit des améliorations plus importantes pour le texte que pour la parole.