Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mô hình nền tảng so với mô hình miền cụ thể: So sánh hiệu suất, hợp nhất và khả năng giải thích trong nhận dạng khuôn mặt

Created by
  • Haebom

Tác giả

Redwan Sony, Parisa Farmanifard, Arun Ross, Anil K. Jain

Phác thảo

Bài báo này so sánh và phân tích hiệu suất nhận dạng khuôn mặt của các mô hình cơ sở chung (ví dụ: CLIP, BLIP, GPT-4o, Grok-4) và các mô hình chuyên biệt (ví dụ: AdaFace, ArcFace). Các thí nghiệm sử dụng nhiều mô hình cơ sở và bộ dữ liệu chuẩn cho thấy các mô hình chuyên biệt vượt trội hơn mô hình cơ sở không có cảnh quay, và mô hình cơ sở không có cảnh quay cải thiện hiệu suất nhận dạng khuôn mặt bị phân đoạn quá mức. Hơn nữa, việc hợp nhất ở cấp độ điểm số của các mô hình cơ sở và chuyên biệt giúp cải thiện độ chính xác với tỷ lệ lỗi thấp. Hơn nữa, các mô hình cơ sở như GPT-4o và Grok-4 cung cấp khả năng giải thích cho quy trình nhận dạng khuôn mặt và giúp giải quyết vấn đề ra quyết định có độ tin cậy thấp của AdaFace. Tóm lại, chúng tôi nhấn mạnh tầm quan trọng của việc kết hợp hợp lý các mô hình chuyên biệt và mô hình cơ sở.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng mô hình nhận dạng khuôn mặt chuyên biệt vượt trội hơn mô hình cơ sở không cần chụp.
Gợi ý tầm quan trọng của thông tin theo ngữ cảnh trong hình ảnh phân đoạn quá mức.
Đề Xuất khả năng cải thiện hiệu suất thông qua việc kết hợp điểm số của các mô hình cơ bản và chuyên biệt.
Đề Xuất khả năng đảm bảo khả năng giải thích và cải thiện độ tin cậy của quy trình nhận dạng khuôn mặt bằng cách sử dụng các mô hình cơ bản.
Limitations:
Kết quả thử nghiệm chỉ giới hạn ở các mô hình và tập dữ liệu chuyên biệt và cơ sở cụ thể.
Cần nghiên cứu thêm về các phương pháp hợp nhất khác ngoài phương pháp hợp nhất ở cấp độ điểm số.
Thiếu đánh giá chắc chắn về các đặc điểm khác nhau trên khuôn mặt (ví dụ: biểu cảm, ánh sáng).
Thiếu đánh giá định lượng về tiềm năng giải thích của mô hình cơ bản.
👍