Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

La vie cachée des jetons : réduire l'hallucination des grands modèles vision-langage grâce au pilotage de l'information visuelle

Created by
  • Haebom

Auteur

Zhuowei Li, Haizhou Shi, Yunhe Gao, Di Liu, Zhenting Wang, Yuxiao Chen, Ting Liu, Long Zhao, Hao Wang, Dimitris N. Metaxas

Contour

Cet article aborde le problème suivant : les modèles vision-langage à grande échelle (LVLM) peuvent raisonner efficacement sur des entrées textuelles et visuelles, mais ont tendance à halluciner des contenus syntaxiquement cohérents mais visuellement infondés. En analysant la dynamique d'hallucination interne des LVLM en examinant les classements logit des jetons tout au long du processus de génération, nous mettons en évidence trois schémas majeurs : (1) la perte progressive d'informations visuelles, (2) l'activation précoce et (3) l'information vraie cachée. Sur la base de ces connaissances, nous proposons VISTA (Visual Information Steering with Token-logit Augmentation), un cadre d'arbitrage du temps d'inférence sans entraînement qui réduit les hallucinations et améliore l'information vraie. VISTA combine deux approches complémentaires : l'amélioration de l'information visuelle dans l'espace d'activation et l'exploitation des activations des couches précoces pour faciliter un décodage significatif. Comparé aux méthodes existantes, VISTA ne nécessite aucune supervision externe et s'applique à diverses stratégies de décodage. Des expériences approfondies montrent que VISTA réduit les hallucinations de 40 % en moyenne sur les tâches de génération ouvertes évaluées et surpasse systématiquement les méthodes existantes sur quatre benchmarks sur quatre architectures sous trois stratégies de décodage différentes.

Takeaways, Limitations

Takeaways:
Nous avons analysé en profondeur les mécanismes internes du phénomène hallucinatoire des LVLM et élucidé leurs causes.
Nous proposons VISTA, un cadre d'arbitrage du temps d'inférence qui ne nécessite aucune formation, pour résoudre efficacement le problème des hallucinations.
VISTA est applicable à diverses stratégies et architectures de décodage et surpasse les méthodes existantes.
Il a été démontré qu’il réduit considérablement les hallucinations dans les tâches génératives ouvertes.
Limitations:
Il est possible que les améliorations des performances de VISTA soient limitées à des ensembles de données ou à des tâches spécifiques.
Une validation supplémentaire des performances de généralisation pour diverses architectures LVLM est nécessaire.
On ne peut pas dire avec certitude que le problème des hallucinations ait été complètement résolu, et des recherches supplémentaires sont nécessaires.
👍