Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Trợ lý nhận thức thị giác không gian

Created by
  • Haebom

Tác giả

Tề Phong

Phác thảo

Bài báo này đề cập đến thách thức về nhận thức không gian dựa trên video, một yếu tố thiết yếu cho robot và AI nhúng, đối với các Mô hình Ngôn ngữ Thị giác (VLM) hiện tại. Chúng tôi trình bày ViCA-322K, một tập dữ liệu đa dạng bao gồm 322.003 cặp câu hỏi-trả lời được lấy từ các video trong nhà thực tế (ARKitScenes, ScanNet, ScanNet++), cung cấp hướng dẫn cho truy vấn dựa trên siêu dữ liệu 3D và suy luận phức tạp dựa trên video. Hơn nữa, chúng tôi phát triển mô hình ViCA-7B, được tinh chỉnh trên ViCA-322K và chứng minh rằng nó đạt được hiệu suất tiên tiến trên tất cả tám tác vụ VSI-Bench, vượt trội hơn các mô hình lớn hơn (ví dụ: +26,1 theo khoảng cách tuyệt đối). Để tăng cường khả năng diễn giải, chúng tôi trình bày tập dữ liệu ViCA-Thinking-2.68K, bao gồm một chuỗi suy luận rõ ràng và tinh chỉnh ViCA-7B để tạo ra mô hình ViCA-7B-Thinking, giải thích rõ ràng suy luận không gian. Nghiên cứu này nhấn mạnh tầm quan trọng của dữ liệu hướng đến mục tiêu, đưa ra định hướng để cải thiện mô hình không gian thời gian và thúc đẩy nghiên cứu trí tuệ thị giác không gian mạnh mẽ bằng cách cung cấp mọi nguồn lực.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày ViCA-322K, một tập dữ liệu trả lời câu hỏi đa dạng, quy mô lớn dựa trên các video trong nhà thực tế, góp phần đào tạo các mô hình suy luận không gian dựa trên video.
ĐạT được hiệu suất tiên tiến nhất trong nhiều thử thách VSI-Bench với mẫu ViCA-7B.
Khả năng diễn giải mô hình được cải thiện với tập dữ liệu ViCA-Thinking-2.68K và mô hình ViCA-7B-Thinking, minh họa quá trình suy luận rõ ràng.
Nhấn mạnh tầm quan trọng của dữ liệu hướng đến mục tiêu và đề xuất hướng cải thiện mô hình hóa không gian-thời gian.
Kích hoạt nghiên cứu thông qua việc công bố tất cả các nguồn tài nguyên nghiên cứu.
Limitations:
Bài báo không đề cập rõ ràng đến Limitations cụ thể. Cần có thêm các thí nghiệm và phân tích để hiểu rõ hơn về những hạn chế của tập dữ liệu, hiệu suất tổng quát hóa của mô hình và khả năng dễ bị tổn thương của nó trước các loại tác vụ suy luận không gian cụ thể.
Kích thước của ViCA-Thinking-2.68K tương đối nhỏ, đòi hỏi phải xác minh thêm về khả năng khái quát hóa của quá trình suy luận.
👍