Nghiên cứu này đã khảo sát tính khả thi và hiệu suất của việc tự động chú thích cảm xúc của con người trong các tình huống hàng ngày bằng cách sử dụng các mô hình đa phương thức quy mô lớn (LMM). Chúng tôi đã tiến hành các thử nghiệm trên tập con DailyLife của bộ dữ liệu FERV39k được công bố rộng rãi, sử dụng mô hình GPT-4o-mini để dán nhãn zero-shot nhanh chóng cho các khung hình chính được trích xuất từ các phân đoạn video. Với bảy lược đồ phân loại cảm xúc ("giận dữ", "ghê tởm", "sợ hãi", "hạnh phúc", "trung tính", "buồn bã" và "ngạc nhiên"), LMM đạt độ chính xác trung bình khoảng 50%. Tuy nhiên, khi giới hạn ở ba phân loại cảm xúc (tiêu cực/trung tính/tích cực), độ chính xác trung bình tăng lên khoảng 64%. Hơn nữa, chúng tôi đã khám phá một chiến lược hợp nhất nhiều khung hình trong các đoạn video clip dài 1-2 giây để cải thiện hiệu suất dán nhãn và giảm chi phí. Kết quả cho thấy phương pháp này có thể cải thiện đôi chút độ chính xác của chú thích. Nhìn chung, kết quả sơ bộ của chúng tôi làm nổi bật tiềm năng của LMM zero-shot cho các tác vụ chú thích cảm xúc khuôn mặt của con người, cung cấp một phương pháp mới để giảm chi phí dán nhãn và mở rộng khả năng ứng dụng của LMM trong các môi trường đa phương thức phức tạp.