Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Chú thích cảm xúc Zero-shot trong ảnh khuôn mặt sử dụng mô hình đa phương thức lớn: Đánh giá chuẩn và triển vọng cho các phương pháp tiếp cận đa lớp, đa khung

Created by
  • Haebom

Tác giả

Hà Trương, Xinyi Fu

Phác thảo

Nghiên cứu này đã khảo sát tính khả thi và hiệu suất của việc tự động chú thích cảm xúc của con người trong các tình huống hàng ngày bằng cách sử dụng các mô hình đa phương thức quy mô lớn (LMM). Chúng tôi đã tiến hành các thử nghiệm trên tập con DailyLife của bộ dữ liệu FERV39k được công bố rộng rãi, sử dụng mô hình GPT-4o-mini để dán nhãn zero-shot nhanh chóng cho các khung hình chính được trích xuất từ các phân đoạn video. Với bảy lược đồ phân loại cảm xúc ("giận dữ", "ghê tởm", "sợ hãi", "hạnh phúc", "trung tính", "buồn bã" và "ngạc nhiên"), LMM đạt độ chính xác trung bình khoảng 50%. Tuy nhiên, khi giới hạn ở ba phân loại cảm xúc (tiêu cực/trung tính/tích cực), độ chính xác trung bình tăng lên khoảng 64%. Hơn nữa, chúng tôi đã khám phá một chiến lược hợp nhất nhiều khung hình trong các đoạn video clip dài 1-2 giây để cải thiện hiệu suất dán nhãn và giảm chi phí. Kết quả cho thấy phương pháp này có thể cải thiện đôi chút độ chính xác của chú thích. Nhìn chung, kết quả sơ bộ của chúng tôi làm nổi bật tiềm năng của LMM zero-shot cho các tác vụ chú thích cảm xúc khuôn mặt của con người, cung cấp một phương pháp mới để giảm chi phí dán nhãn và mở rộng khả năng ứng dụng của LMM trong các môi trường đa phương thức phức tạp.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày khả năng chú thích cảm xúc của con người một cách tự động bằng cách sử dụng LMM không cần chỉnh sửa.
Phân loại ba thành phần (tiêu cực/trung tính/tích cực) cho thấy độ chính xác cao hơn so với phân loại 7 đầu cuối.
Chúng tôi chứng minh tiềm năng cải thiện độ chính xác và hiệu quả của chú thích thông qua chiến lược tích hợp nhiều khung hình.
Đề Xuất khả năng giảm chi phí và mở rộng phạm vi ứng dụng của phân tích tình cảm dựa trên LMM.
Limitations:
Độ Chính xác trung bình tương đối thấp khoảng 50% (dựa trên phân loại heptadic)
Kết quả này dành cho một tập dữ liệu cụ thể (tập hợp con DailyLife của FERV39k) và cần nghiên cứu thêm để xác định khả năng khái quát hóa.
Hiệu suất cải thiện của chiến lược tích hợp đa khung là tối thiểu.
Hiệu suất có thể giảm do những hạn chế của mẫu GPT-4o-mini.
Cần nghiên cứu thêm về các tập dữ liệu và mô hình đa dạng và rộng hơn.
👍