Cet article propose AdaLLaVA, un cadre d'inférence adaptatif pour une inférence efficace de modèles linguistiques multimodaux à grande échelle (MLLM). Les MLLM conventionnels peinent à être déployés dans des environnements aux ressources limitées en raison de leurs coûts de calcul élevés. AdaLLaVA relève ce défi grâce à une approche basée sur l'apprentissage qui reconfigure dynamiquement les calculs MLLM pendant l'inférence, en tenant compte des données d'entrée et des budgets de latence. Grâce à diverses expériences de référence, notamment de type questions-réponses, inférence et hallucination, nous démontrons qu'AdaLLaVA respecte efficacement les budgets de latence d'entrée et réalise divers compromis entre précision et latence en fonction du temps d'exécution. De plus, nous démontrons qu'AdaLLaVA s'adapte à la latence et au contenu des entrées, s'intègre à la sélection de jetons pour améliorer l'efficacité et se généralise à divers MLLM.