본 논문은 다국어 및 다중 이미지 환경에서 그림 설명을 통해 경도인지장애(MCI)를 감지하는 어려움을 해결하기 위해 새로운 프레임워크를 제안합니다. 기존 연구는 주로 영어 사용자의 단일 이미지 설명에 초점을 맞춘 반면, 본 논문은 다국어 사용자와 다중 이미지를 고려하여, 지도 학습 대조 학습을 통한 차별적 표현 학습 향상, 이미지 모달리티 통합, 전문가 곱(PoE) 전략을 통한 가짜 상관관계 및 과적합 완화라는 세 가지 구성 요소를 제시합니다. 제안된 프레임워크는 텍스트 단일 모달리티 기준 대비 Unweighted Average Recall(UAR)을 7.1% (68.1%에서 75.2%로), F1 점수를 2.9% (80.6%에서 83.5%로) 향상시키는 결과를 보였으며, 특히 대조 학습 구성 요소는 음성보다 텍스트 모달리티에 더 큰 향상을 가져왔습니다.