[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Lời nhắc vị trí trực quan cho việc tiếp đất trực quan dựa trên MLLM

Created by
  • Haebom

Tác giả

Wei Tang, Yanpeng Sun, Qinying Gu, Zechao Li

Phác thảo

Trong bài báo này, chúng tôi đề xuất một mô hình VPP-LLaVA sử dụng Visual Position Prompt (VPP) để giải quyết khó khăn trong việc căn chỉnh tọa độ chính xác trong các tác vụ nền tảng trực quan của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). Lý do tại sao MLLM gặp khó khăn trong việc căn chỉnh tọa độ chính xác với thông tin không gian là do thiếu tham chiếu không gian rõ ràng và quy trình trích xuất đặc trưng ưu tiên ngữ cảnh toàn cục hơn các chi tiết không gian chi tiết. VPP-LLaVA giải quyết vấn đề này bằng cách tích hợp hai cơ chế: VPP toàn cục và VPP cục bộ. VPP toàn cục cung cấp các tín hiệu không gian có cấu trúc bằng cách chồng các tenxơ giống trục có thể học được lên các ảnh đầu vào, trong khi VPP cục bộ hỗ trợ nhận dạng vị trí chi tiết thông qua các truy vấn nhận biết vị trí. Ngoài ra, chúng tôi giới thiệu một tập dữ liệu VPP-SFT mới bao gồm 0,6 triệu mẫu nền tảng trực quan chất lượng cao để đào tạo hiệu quả. VPP-LLaVA đạt hiệu suất tiên tiến trên các điểm chuẩn nền tảng trực quan tiêu chuẩn và thể hiện hiệu suất khái quát hóa zero-shot mạnh mẽ trên các tập dữ liệu mới.

Takeaways, Limitations

Takeaways:
Trình bày VPP như một phương pháp hiệu quả để cải thiện hiệu suất của các nhiệm vụ dựa trên hình ảnh trong MLLM
Giới thiệu VPP-SFT, một tập dữ liệu nhỏ, chất lượng cao dành cho đào tạo hiệu quả
ĐạT được hiệu suất dựa trên hình ảnh được cải thiện và hiệu suất tổng quát hóa mạnh mẽ so với MLLM hiện có
Dễ dàng tái tạo nghiên cứu và nghiên cứu sâu hơn thông qua mã mở và tập dữ liệu
Limitations:
Kích thước của tập dữ liệu VPP-SFT có thể vẫn còn tương đối nhỏ so với các tập dữ liệu lớn khác. Việc sử dụng tập dữ liệu lớn hơn có thể cải thiện hiệu suất.
Hiệu suất tổng quát của phương pháp đề xuất cần được đánh giá thêm trên nhiều tác vụ và tập dữ liệu dựa trên hình ảnh.
Thiếu phân tích chi tiết về thiết kế và điều chỉnh thông số của VPP. Có thể cần nghiên cứu thêm về thiết kế VPP tối ưu.
👍