Để Giải quyết vấn đề chi phí tính toán cao và độ trễ suy luận của Mô hình Ngôn ngữ Thị giác (VLM), bài báo này đề xuất Fourier-VLM, một phương pháp mới để nén các biểu diễn trực quan trong miền tần số. Các VLM hiện có thay thế các mã thông báo giữ chỗ hình ảnh bằng các đặc điểm trực quan được trích xuất từ bộ mã hóa hình ảnh, nhưng số lượng lớn các mã thông báo trực quan làm tăng độ dài ngữ cảnh và tăng chi phí tính toán. Fourier-VLM tận dụng thực tế là các đặc điểm trực quan tập trung ở các thành phần tần số thấp và áp dụng bộ lọc thông thấp sử dụng phép biến đổi cosin rời rạc hai chiều (DCT) để nén các biểu diễn trực quan. DCT được tính toán hiệu quả thông qua phép biến đổi Fourier nhanh (FFT), giảm thiểu chi phí tính toán mà không yêu cầu các tham số bổ sung. Các thí nghiệm trên nhiều điểm chuẩn dựa trên hình ảnh chứng minh rằng cả kiến trúc LLaVA và Qwen-VL đều đạt được hiệu suất và hiệu suất tổng quát cạnh tranh. So với LLaVA-v1.5, phương pháp chúng tôi đề xuất giảm FLOP suy luận tới 83,8% và cải thiện tốc độ tạo ra 31,2%.