Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Fourier-VLM: Nén mã thông báo thị giác trong miền tần số cho các mô hình ngôn ngữ thị giác lớn

Created by
  • Haebom

Tác giả

Huanyu Wang, Jushi Kai, Haoli Bai, Lu Hou, Bo Jiang, Ziwei He, Zhouhan Lin

Phác thảo

Để Giải quyết vấn đề chi phí tính toán cao và độ trễ suy luận của Mô hình Ngôn ngữ Thị giác (VLM), bài báo này đề xuất Fourier-VLM, một phương pháp mới để nén các biểu diễn trực quan trong miền tần số. Các VLM hiện có thay thế các mã thông báo giữ chỗ hình ảnh bằng các đặc điểm trực quan được trích xuất từ bộ mã hóa hình ảnh, nhưng số lượng lớn các mã thông báo trực quan làm tăng độ dài ngữ cảnh và tăng chi phí tính toán. Fourier-VLM tận dụng thực tế là các đặc điểm trực quan tập trung ở các thành phần tần số thấp và áp dụng bộ lọc thông thấp sử dụng phép biến đổi cosin rời rạc hai chiều (DCT) để nén các biểu diễn trực quan. DCT được tính toán hiệu quả thông qua phép biến đổi Fourier nhanh (FFT), giảm thiểu chi phí tính toán mà không yêu cầu các tham số bổ sung. Các thí nghiệm trên nhiều điểm chuẩn dựa trên hình ảnh chứng minh rằng cả kiến trúc LLaVA và Qwen-VL đều đạt được hiệu suất và hiệu suất tổng quát cạnh tranh. So với LLaVA-v1.5, phương pháp chúng tôi đề xuất giảm FLOP suy luận tới 83,8% và cải thiện tốc độ tạo ra 31,2%.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng nén miền tần số có thể giảm hiệu quả chi phí tính toán và độ trễ suy luận của VLM.
ĐạT được hiệu suất cải thiện hiệu quả mà không cần thêm thông số.
Nó cho thấy hiệu suất tổng quát tuyệt vời trên nhiều kiến trúc khác nhau như LLaVA và Qwen-VL.
Cải thiện đáng kể hiệu quả và tính thực tiễn của VLM cho các ứng dụng thực tế.
Limitations:
Sự cải thiện hiệu suất của phương pháp đề xuất có thể bị ảnh hưởng bởi các tập dữ liệu hoặc kiến trúc cụ thể. Cần có các thử nghiệm mở rộng hơn để xác minh hiệu suất tổng quát hóa.
Chúng tôi cho rằng năng lượng tập trung ở các thành phần tần số thấp, nhưng cần nghiên cứu thêm để xác định liệu giả định này có thể luôn được áp dụng cho mọi dữ liệu hình ảnh hay không.
Do những hạn chế của nén dựa trên DCT, có khả năng mất thông tin ở các thành phần tần số cao. Có thể cần nghiên cứu thêm để giảm thiểu sự suy giảm hiệu suất do đó.
👍