Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Cấu trúc thị giác hỗ trợ lý luận thị giác: Giải quyết vấn đề liên kết trong VLM

Created by
  • Haebom

Tác giả

Amirmohammad Izadi, Mohammad Ali Banayeeanzade, Fatemeh Askari, Ali Rahimiakbar, Mohammad Mahdi Vahedi, Vòiin Hasani, Mahdieh Soleymani Baghshah

Phác thảo

Bài báo này đề xuất VISER (Cấu trúc đầu vào trực quan để tăng cường lý luận) để giải quyết những hạn chế của các mô hình ngôn ngữ trực quan (VLM) về khả năng lý luận trực quan của chúng. VLM gặp khó khăn trong việc kết nối các đặc điểm nhận thức với các tham chiếu trực quan một cách đáng tin cậy, dẫn đến lỗi trong các tác vụ như tính toán, tìm kiếm trực quan, mô tả cảnh và hiểu mối quan hệ không gian. VISER là một phương pháp đơn giản nhưng hiệu quả để tăng cường đầu vào trực quan bằng cấu trúc không gian cấp thấp và thêm các lời nhắc văn bản hướng dẫn phân tích cú pháp tuần tự và có nhận thức về không gian. Kết quả thử nghiệm chứng minh rằng VISER cải thiện đáng kể hiệu suất của nhiều tác vụ lý luận trực quan. Cụ thể, nó cải thiện độ chính xác tìm kiếm trực quan lên 25,00% và độ chính xác tính toán lên 26,83% trên GPT-4o, giảm lỗi khoảng cách chỉnh sửa trong mô tả cảnh xuống 0,32% và cải thiện hiệu suất mối quan hệ không gian trên tập dữ liệu tổng hợp 2D lên 9,50%. Điều này làm nổi bật tầm quan trọng của thiết kế đầu vào trực quan so với các phương pháp tiếp cận thuần túy về ngôn ngữ và cho thấy rằng cấu trúc trực quan cấp thấp đại diện cho một hướng mạnh mẽ và chưa được khám phá để tăng cường lý luận trực quan mang tính xây dựng.

Takeaways, Limitations

Takeaways:
Chúng tôi cho rằng cấu trúc trực quan cấp thấp là một cách hiệu quả để cải thiện khả năng suy luận trực quan của VLM.
Nó nhấn mạnh tầm quan trọng của thiết kế đầu vào trực quan so với các phương pháp chỉ dựa trên ngôn ngữ.
VISER chứng minh hiệu quả của mình bằng cách cải thiện vấn đề liên kết chỉ với một suy luận truy vấn duy nhất.
Chúng tôi đã đạt được những cải tiến về hiệu suất trên nhiều nhiệm vụ lý luận trực quan, bao gồm tìm kiếm trực quan, tính toán, mô tả cảnh và hiểu mối quan hệ không gian.
Limitations:
Hiện tại, chỉ có kết quả cho các tập dữ liệu tổng hợp 2D được trình bày và cần nghiên cứu thêm để xác định khả năng khái quát hóa cho các tập dữ liệu thực tế.
Thiếu phân tích về chi phí tính toán và khả năng mở rộng của phương pháp đề xuất.
Cần nghiên cứu thêm để xác định khả năng tổng quát hóa trên các kiến ​​trúc VLM khác nhau.
👍