본 논문은 다국어 및 다중 그림 환경에서 그림 설명을 통해 경도인지장애(MCI)를 검출하는 어려움을 다룹니다. 기존 연구는 주로 영어 사용자의 단일 그림 설명에 초점을 맞춘 반면, 본 논문에서는 다국어 사용자와 다중 그림을 포함하는 TAUKDIAL-2024 챌린지를 기반으로, 지도형 대조 학습을 통한 차별적 표현 학습 강화, 이미지 모달리티 활용, 전문가 곱(PoE) 전략을 통한 가짜 상관관계 및 과적합 완화 등 세 가지 구성 요소를 갖는 프레임워크를 제안합니다. 제안된 프레임워크는 비교 기준(text unimodal baseline) 대비 Unweighted Average Recall(UAR)을 7.1% (68.1%에서 75.2%로), F1 점수를 2.9% (80.6%에서 83.5%로) 향상시키는 성능을 보였으며, 특히 대조 학습 구성 요소는 음성보다 텍스트 모달리티에 더 큰 향상을 가져왔습니다.