Bài báo này tập trung vào mime, một tập hợp con của giao tiếp phi ngôn ngữ (NVC), và đề xuất MIME, một thước đo đánh giá mới nhằm cải thiện khả năng hiểu NVC của các mô hình ngôn ngữ thị giác. MIME là một chuẩn mực trả lời câu hỏi dựa trên video, bao gồm 86 chuyển động mime. Nó đánh giá độ tin cậy của các mô hình bằng cách thêm các phép biến đổi và nhiễu khác nhau dựa trên dữ liệu ghi lại chuyển động. Kết quả thực nghiệm cho thấy các mô hình ngôn ngữ thị giác hiện tại có hiệu suất kém hơn đáng kể so với con người trên MIME, cho thấy nhu cầu về các mô hình có khả năng hiểu cử chỉ của con người mạnh mẽ hơn.