यह शोधपत्र AdaLLaVA का प्रस्ताव करता है, जो बहुविधीय वृहद-स्तरीय भाषा मॉडल (MLLM) के कुशल अनुमान हेतु एक अनुकूली अनुमान ढाँचा है। पारंपरिक MLLM अपनी उच्च गणना लागत के कारण संसाधन-सीमित परिवेशों में परिनियोजित करने में कठिनाई का अनुभव करते हैं। AdaLLaVA एक शिक्षण-आधारित दृष्टिकोण के माध्यम से इस चुनौती का समाधान करता है जो अनुमान के दौरान MLLM गणनाओं को गतिशील रूप से पुनर्संयोजित करता है, जिसमें इनपुट डेटा और विलंबता बजट को ध्यान में रखा जाता है। प्रश्नोत्तर, अनुमान और मतिभ्रम सहित विभिन्न मानक प्रयोगों के माध्यम से, हम प्रदर्शित करते हैं कि AdaLLaVA इनपुट विलंबता बजट को प्रभावी ढंग से पूरा करता है और निष्पादन समय के आधार पर सटीकता और विलंबता के बीच विभिन्न समझौतों को प्राप्त करता है। इसके अलावा, हम प्रदर्शित करते हैं कि AdaLLaVA इनपुट विलंबता और विषय-वस्तु के अनुकूल होता है, दक्षता बढ़ाने के लिए टोकन चयन के साथ एकीकृत होता है, और विभिन्न MLLM के लिए सामान्यीकृत होता है।