दृष्टि-भाषा मॉडल (वीएलएम) की उच्च गणना लागत और अनुमान विलंबता को संबोधित करने के लिए, यह शोधपत्र फ़ूरियर-वीएलएम का प्रस्ताव करता है, जो आवृत्ति डोमेन में दृश्य अभ्यावेदन को संपीड़ित करने की एक नवीन विधि है। मौजूदा वीएलएम, छवि प्लेसहोल्डर टोकन को छवि एनकोडर से निकाले गए दृश्य विशेषताओं से प्रतिस्थापित करते हैं, लेकिन दृश्य टोकन की बड़ी संख्या संदर्भ की लंबाई और गणना लागत को बढ़ा देती है। फ़ूरियर-वीएलएम इस तथ्य का लाभ उठाता है कि दृश्य विशेषताएँ निम्न-आवृत्ति घटकों में केंद्रित होती हैं और दृश्य अभ्यावेदन को संपीड़ित करने के लिए द्वि-आयामी असतत कोसाइन रूपांतरण (डीसीटी) का उपयोग करके एक निम्न-पास फ़िल्टर लागू करता है। डीसीटी की गणना द्रुत फ़ूरियर रूपांतरण (एफएफटी) के माध्यम से कुशलतापूर्वक की जाती है, जिससे अतिरिक्त मापदंडों की आवश्यकता के बिना गणना लागत न्यूनतम हो जाती है। विभिन्न छवि-आधारित बेंचमार्क पर किए गए प्रयोगों से पता चलता है कि एलएलएवीए और क्वेन-वीएल दोनों आर्किटेक्चर प्रतिस्पर्धी प्रदर्शन और सामान्यीकरण प्रदर्शन प्राप्त करते हैं। LLaVA-v1.5 की तुलना में, हमारा प्रस्तावित दृष्टिकोण अनुमान FLOPs को 83.8% तक कम करता है और पीढ़ी की गति में 31.2% तक सुधार करता है।