Bài báo này so sánh và phân tích hiệu suất nhận dạng khuôn mặt của các mô hình cơ sở chung (ví dụ: CLIP, BLIP, GPT-4o, Grok-4) và các mô hình chuyên biệt (ví dụ: AdaFace, ArcFace). Các thí nghiệm sử dụng nhiều mô hình cơ sở và bộ dữ liệu chuẩn cho thấy các mô hình chuyên biệt vượt trội hơn mô hình cơ sở không có cảnh quay, và mô hình cơ sở không có cảnh quay cải thiện hiệu suất nhận dạng khuôn mặt bị phân đoạn quá mức. Hơn nữa, việc hợp nhất ở cấp độ điểm số của các mô hình cơ sở và chuyên biệt giúp cải thiện độ chính xác với tỷ lệ lỗi thấp. Hơn nữa, các mô hình cơ sở như GPT-4o và Grok-4 cung cấp khả năng giải thích cho quy trình nhận dạng khuôn mặt và giúp giải quyết vấn đề ra quyết định có độ tin cậy thấp của AdaFace. Tóm lại, chúng tôi nhấn mạnh tầm quan trọng của việc kết hợp hợp lý các mô hình chuyên biệt và mô hình cơ sở.