Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Hướng tới Nhận thức Thị giác Không gian thông qua Sự hợp nhất Phân cấp của các Chuyên gia Thị giác

Created by
  • Haebom

Tác giả

Tề Phong

Phác thảo

Bài báo này trình bày ViCA2, một mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) mới giúp tăng cường nhận thức thị giác-không gian, đặc biệt là khả năng suy ra bố cục không gian, các mối quan hệ và động lực học. ViCA2 có kiến ​​trúc bộ mã hóa thị giác kép tích hợp SigLIP cho ngữ nghĩa và Hiera cho cấu trúc không gian, cũng như cơ chế kiểm soát tốc độ mã thông báo để tăng hiệu quả. Hơn nữa, chúng tôi đã phát triển ViCA-322K, một tập dữ liệu quy mô lớn bao gồm hơn 320.000 cặp câu hỏi-trả lời không gian, để thực hiện điều chỉnh theo mục tiêu. Mô hình ViCA2-7B đạt điểm trung bình tiên tiến là 56,8 trên chuẩn VSI-Bench, vượt trội hơn các mô hình mã nguồn mở và độc quyền lớn như LLaVA-NeXT-Video-72B và Gemini-1.5 Pro. Chúng tôi công khai ViCA2, cơ sở mã của nó và tập dữ liệu ViCA-322K để hỗ trợ nghiên cứu sâu hơn.

Takeaways, Limitations

Takeaways:
Mặc dù là mô hình quy mô nhỏ (7B), nhưng nó đạt được hiệu suất suy luận không gian trực quan vượt trội hơn các mô hình quy mô lớn hiện có.
Chúng tôi chứng minh hiệu quả của kiến ​​trúc bộ mã hóa hình ảnh kép bằng tập dữ liệu mới, ViCA-322K.
Việc truy cập mở vào các mô hình, mã và tập dữ liệu có thể tạo điều kiện thuận lợi cho việc nghiên cứu sâu hơn.
Limitations:
Hiệu suất trên các tiêu chuẩn khác ngoài tiêu chuẩn VSI-Bench không được đánh giá.
Cần đánh giá thêm về khả năng khái quát của mô hình.
Thiếu phân tích về độ lệch và khả năng khái quát hóa của tập dữ liệu ViCA-322K.
👍