दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

फूरियर-वीएलएम: बड़े विज़न-लैंग्वेज मॉडल के लिए फ़्रीक्वेंसी डोमेन में विज़न टोकन को संपीड़ित करना

Created by
  • Haebom

लेखक

हुआन्यू वांग, जुशी काई, हाओली बाई, लू होउ, बो जियांग, ज़िवेई हे, झोउहान लिन

रूपरेखा

दृष्टि-भाषा मॉडल (वीएलएम) की उच्च गणना लागत और अनुमान विलंबता को संबोधित करने के लिए, यह शोधपत्र फ़ूरियर-वीएलएम का प्रस्ताव करता है, जो आवृत्ति डोमेन में दृश्य अभ्यावेदन को संपीड़ित करने की एक नवीन विधि है। मौजूदा वीएलएम, छवि प्लेसहोल्डर टोकन को छवि एनकोडर से निकाले गए दृश्य विशेषताओं से प्रतिस्थापित करते हैं, लेकिन दृश्य टोकन की बड़ी संख्या संदर्भ की लंबाई और गणना लागत को बढ़ा देती है। फ़ूरियर-वीएलएम इस तथ्य का लाभ उठाता है कि दृश्य विशेषताएँ निम्न-आवृत्ति घटकों में केंद्रित होती हैं और दृश्य अभ्यावेदन को संपीड़ित करने के लिए द्वि-आयामी असतत कोसाइन रूपांतरण (डीसीटी) का उपयोग करके एक निम्न-पास फ़िल्टर लागू करता है। डीसीटी की गणना द्रुत फ़ूरियर रूपांतरण (एफएफटी) के माध्यम से कुशलतापूर्वक की जाती है, जिससे अतिरिक्त मापदंडों की आवश्यकता के बिना गणना लागत न्यूनतम हो जाती है। विभिन्न छवि-आधारित बेंचमार्क पर किए गए प्रयोगों से पता चलता है कि एलएलएवीए और क्वेन-वीएल दोनों आर्किटेक्चर प्रतिस्पर्धी प्रदर्शन और सामान्यीकरण प्रदर्शन प्राप्त करते हैं। LLaVA-v1.5 की तुलना में, हमारा प्रस्तावित दृष्टिकोण अनुमान FLOPs को 83.8% तक कम करता है और पीढ़ी की गति में 31.2% तक सुधार करता है।

Takeaways, Limitations

Takeaways:
हम प्रदर्शित करते हैं कि आवृत्ति-डोमेन संपीड़न, वीएलएम की कम्प्यूटेशनल लागत और अनुमान विलंबता को प्रभावी ढंग से कम कर सकता है।
अतिरिक्त पैरामीटर के बिना कुशल प्रदर्शन सुधार प्राप्त करें।
यह LLaVA और Qwen-VL जैसे विभिन्न आर्किटेक्चर पर उत्कृष्ट सामान्यीकरण प्रदर्शन दिखाता है।
व्यावहारिक अनुप्रयोगों के लिए वीएलएम की दक्षता और व्यावहारिकता में महत्वपूर्ण सुधार होता है।
Limitations:
प्रस्तावित विधि के प्रदर्शन सुधार विशिष्ट डेटासेट या आर्किटेक्चर के प्रति पक्षपाती हो सकते हैं। सामान्यीकरण प्रदर्शन को सत्यापित करने के लिए और अधिक व्यापक प्रयोगों की आवश्यकता है।
हम मानते हैं कि ऊर्जा निम्न-आवृत्ति घटकों में केंद्रित होती है, लेकिन यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या यह धारणा हमेशा सभी छवि डेटा पर लागू की जा सकती है।
डीसीटी-आधारित संपीड़न की सीमाओं के कारण, उच्च-आवृत्ति घटकों में सूचना हानि की संभावना है। परिणामस्वरूप प्रदर्शन में होने वाली गिरावट को कम करने के लिए और अधिक शोध की आवश्यकता हो सकती है।
👍