Bài báo này đề xuất một khuôn khổ mới để giải quyết những thách thức trong việc phát hiện Suy giảm Nhận thức Nhẹ (MCI) thông qua mô tả hình ảnh trong môi trường đa ngôn ngữ và đa hình ảnh. Khác với các nghiên cứu trước đây chủ yếu tập trung vào mô tả hình ảnh đơn lẻ cho người nói tiếng Anh, bài báo này xem xét người dùng đa ngôn ngữ và nhiều hình ảnh, đồng thời trình bày ba thành phần: học đối chiếu có giám sát để tăng cường học biểu diễn phân biệt, tích hợp phương thức hình ảnh, và chiến lược Sản phẩm của Chuyên gia (PoE) để giảm thiểu tương quan giả và hiện tượng quá khớp. Khuôn khổ đề xuất cải thiện Độ nhớ lại Trung bình Không trọng số (UAR) thêm 7,1% (từ 68,1% lên 75,2%) và điểm F1 thêm 2,9% (từ 80,6% lên 83,5%) so với các chuẩn mực đơn phương thức chỉ có văn bản hiện có. Hơn nữa, thành phần học đối chiếu cho thấy hiệu suất tăng cao hơn đối với văn bản so với lời nói.