Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

B-VLLM: Mô hình ngôn ngữ lớn với các mã thông báo không gian-thời gian cân bằng

Created by
  • Haebom

Tác giả

Zhuqiang Lu, Zhenfei Yin, Mengwei He, Zhihui Wang, Zichen Liu, Zhiyong Wang, Kun Hu

Phác thảo

Để Giải quyết những thách thức trong việc hiểu hình ảnh dài hạn bằng Mô hình Ngôn ngữ Quy mô Lớn Thị giác (VLLM), bài báo này trình bày một khuôn khổ Balanced-VLLM (B-VLLM) sử dụng mô-đun chọn khung thích ứng có điều kiện văn bản, kỹ thuật hợp nhất mã thông báo khung thời gian, mô-đun lấy mẫu mã thông báo không gian và chiến lược hợp nhất. Để giải quyết các vấn đề mà các VLLM hiện tại gặp phải, chẳng hạn như mất thông tin thời gian hoặc không gian do giảm mẫu hình ảnh hoặc giảm số lượng mã thông báo thị giác trong mỗi khung, chúng tôi đề xuất một phương pháp sử dụng hiệu quả các tín hiệu không gian-thời gian liên quan đến tác vụ, đồng thời giới hạn số lượng mã thông báo thị giác trong độ dài cửa sổ ngữ cảnh của VLLM. Kết quả thực nghiệm chứng minh rằng B-VLLM thể hiện hiệu suất vượt trội trên nhiều tiêu chuẩn đánh giá hiểu hình ảnh khác nhau.

Takeaways, Limitations

Takeaways:
Chúng tôi đã cải thiện đáng kể hiệu quả hiểu hình ảnh dài hạn dựa trên VLLM.
Chúng tôi đã giảm thiểu tình trạng mất thông tin liên quan đến nhiệm vụ thông qua chiến lược lựa chọn khung thích ứng có điều kiện văn bản và hợp nhất mã thông báo.
Phương pháp này đạt hiệu suất vượt trội so với các phương pháp hiện có trên nhiều tiêu chuẩn đánh giá hình ảnh khác nhau.
Khả năng tái tạo đã được cải thiện thông qua mã nguồn mở.
Limitations:
Hiện vẫn chưa có phân tích chi tiết về độ phức tạp tính toán của phương pháp đề xuất.
Có khả năng xảy ra sai lệch hiệu suất đối với một số loại dữ liệu hình ảnh nhất định.
Cần có thêm các thí nghiệm về nhiệm vụ hiểu hình ảnh đa dạng và phức tạp hơn.
👍