Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprendre à inférer de manière adaptative pour les grands modèles linguistiques multimodaux

Created by
  • Haebom

Auteur

Zhuoyan Xu, Khoi Duc Nguyen, Preeti Mukherjee, Saurabh Bagchi, Somali Chaterji, Yingyu Liang, Yin Li

Contour

Cet article propose AdaLLaVA, un cadre d'inférence adaptatif pour une inférence efficace de modèles linguistiques multimodaux à grande échelle (MLLM). Les MLLM conventionnels peinent à être déployés dans des environnements aux ressources limitées en raison de leurs coûts de calcul élevés. AdaLLaVA relève ce défi grâce à une approche basée sur l'apprentissage qui reconfigure dynamiquement les calculs MLLM pendant l'inférence, en tenant compte des données d'entrée et des budgets de latence. Grâce à diverses expériences de référence, notamment de type questions-réponses, inférence et hallucination, nous démontrons qu'AdaLLaVA respecte efficacement les budgets de latence d'entrée et réalise divers compromis entre précision et latence en fonction du temps d'exécution. De plus, nous démontrons qu'AdaLLaVA s'adapte à la latence et au contenu des entrées, s'intègre à la sélection de jetons pour améliorer l'efficacité et se généralise à divers MLLM.

Takeaways, Limitations

Takeaways:
Présentation d'une nouvelle méthode permettant d'utiliser efficacement MLLM même dans des environnements aux ressources limitées.
Ajustez dynamiquement les opérations MLLM en fonction des données d'entrée et du budget de latence pour obtenir des performances optimales.
L’intégration avec la sélection de jetons présente le potentiel de gains d’efficacité supplémentaires.
Un cadre général applicable à divers MLLM.
Limitations:
Les performances d'AdaLLaVA peuvent varier en fonction du MLLM utilisé et de l'ensemble de données de référence.
Une validation supplémentaire des performances de généralisation dans des environnements réels est nécessaire.
Les performances de traitement pour des questions ou des images très complexes peuvent nécessiter des recherches supplémentaires.
👍