उच्च-रिज़ॉल्यूशन इमेज प्रोसेसिंग में बड़ी संख्या में विज़ुअल टोकन उत्पन्न करने की समस्या के समाधान हेतु, यह शोधपत्र AVG-LLaVA, एक बड़े पैमाने का मल्टीमॉडल मॉडल (LMM) प्रस्तावित करता है जो इनपुट इमेज और निर्देशों के आधार पर विज़ुअल ग्रैन्युलैरिटी का अनुकूली चयन करता है। AVG-LLaVA कई पूलिंग लेयर्स के माध्यम से विभिन्न ग्रैन्युलैरिटी के विज़ुअल टोकन उत्पन्न करता है और एक ट्रांसफ़ॉर्मर, एक MLP और एक वोटर लेयर वाले विज़ुअल ग्रैन्युलैरिटी राउटर का उपयोग करके एक उपयुक्त ग्रैन्युलैरिटी का चयन करता है। इसके अलावा, हम RGLF प्रस्तुत करते हैं, जो एक नवीन प्रशिक्षण विधि है जो राउटर के पूर्वानुमानों को अतिरिक्त मैन्युअल एनोटेशन की आवश्यकता के बिना LMM की प्राथमिकताओं के साथ संरेखित करती है। प्रायोगिक परिणाम दर्शाते हैं कि AVG-LLaVA 11 बेंचमार्क पर उत्कृष्ट प्रदर्शन प्राप्त करता है, विज़ुअल टोकन की संख्या को उल्लेखनीय रूप से कम करता है, और अनुमान लगाने की गति में सुधार करता है (उदाहरण के लिए, AI2D बेंचमार्क पर विज़ुअल टोकन में 85.3% की कमी और अनुमान लगाने की गति में 2.53 गुना वृद्धि)।