Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mô hình ngôn ngữ thị giác có thể hiểu được hành động mô phỏng không?

Created by
  • Haebom

Tác giả

Hyundong Cho, Spencer Lin, Tejas Srinivasan, Michael Saxon, Deuksin Kwon, Natali T. Chavez, Jonathan May

Phác thảo

Bài báo này tập trung vào mime, một tập hợp con của giao tiếp phi ngôn ngữ (NVC), và đề xuất MIME, một thước đo đánh giá mới nhằm cải thiện khả năng hiểu NVC của các mô hình ngôn ngữ thị giác. MIME là một chuẩn mực trả lời câu hỏi dựa trên video, bao gồm 86 chuyển động mime. Nó đánh giá độ tin cậy của các mô hình bằng cách thêm các phép biến đổi và nhiễu khác nhau dựa trên dữ liệu ghi lại chuyển động. Kết quả thực nghiệm cho thấy các mô hình ngôn ngữ thị giác hiện tại có hiệu suất kém hơn đáng kể so với con người trên MIME, cho thấy nhu cầu về các mô hình có khả năng hiểu cử chỉ của con người mạnh mẽ hơn.

Takeaways, Limitations

Takeaways:
Trình bày một tiêu chuẩn mới để đánh giá khả năng hiểu giao tiếp phi ngôn ngữ bằng cách sử dụng mime (MIME).
Rõ ràng chứng minh sự thiếu hiểu biết về giao tiếp phi ngôn ngữ trong các mô hình thị giác-ngôn ngữ hiện có và gợi ý các hướng nghiên cứu trong tương lai.
ĐáNh giá độ mạnh mẽ của các mô hình, bao gồm nhiều biến dạng và nhiễu khác nhau, dựa trên dữ liệu chụp chuyển động.
Limitations:
MIME là chuẩn mực dành riêng cho MIME, có thể có những hạn chế trong việc hiểu biết chung về NVC.
Dữ liệu này dựa trên dữ liệu ghi lại chuyển động và có thể không phản ánh hoàn hảo các tình huống NVC khác nhau trong thế giới thực.
Các loại mô hình ngôn ngữ trực quan được sử dụng để đánh giá hiệu suất mô hình hiện tại và số liệu hiệu suất cụ thể của chúng không được cung cấp, điều này có thể gây khó khăn cho việc khái quát hóa.
👍