Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AVG-LLaVA : un modèle multimodal performant et de grande taille avec une granularité visuelle adaptative

Created by
  • Haebom

Auteur

Zhibin Lan, Liqiang Niu, Fandong Meng, Wenbo Li, Jie Zhou, Jinsong Su

Contour

Pour résoudre le problème de la génération d'un grand nombre de jetons visuels dans le traitement d'images haute résolution, cet article propose AVG-LLaVA, un modèle multimodal à grande échelle (LMM) qui sélectionne de manière adaptative la granularité visuelle en fonction des images et des directives d'entrée. AVG-LLaVA génère des jetons visuels de différentes granularités via plusieurs couches de pooling et sélectionne la granularité appropriée à l'aide d'un routeur de granularité visuelle composé d'un transformateur, d'un MLP et d'une couche de vote. De plus, nous présentons RGLF, une nouvelle méthode d'apprentissage qui aligne les prédictions du routeur sur les préférences du LMM sans nécessiter d'annotation manuelle supplémentaire. Les résultats expérimentaux montrent qu'AVG-LLaVA atteint d'excellentes performances sur 11 benchmarks, réduit significativement le nombre de jetons visuels et améliore la vitesse d'inférence (par exemple, une réduction de 85,3 % des jetons visuels et une augmentation de 2,53 fois la vitesse d'inférence sur le benchmark AI2D).

Takeaways, Limitations

Takeaways:
Une nouvelle approche pour résoudre efficacement le problème des jetons visuels excessifs qui survient lors du traitement d'images haute résolution est présentée.
Ajustez de manière adaptative la granularité visuelle en fonction des images d'entrée et des instructions pour améliorer les performances et l'efficacité.
Nous présentons une méthode de formation RGLF qui améliore la capacité du modèle à sélectionner la granularité visuelle sans données supplémentaires.
A démontré des performances et une efficacité supérieures à celles des modèles existants dans divers tests de performance.
Limitations:
Des recherches supplémentaires sont nécessaires pour étudier les performances de généralisation de la méthode de formation RGLF proposée et son applicabilité à d’autres LMM.
Une évaluation rigoureuse de divers types d’images haute résolution et d’instructions complexes est nécessaire.
Une analyse de la complexité et du coût de calcul des routeurs à granularité visuelle est nécessaire.
👍