Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

À Travers la loupe : grossissement adaptatif de la perception pour un décodage VLM sans hallucinations

Created by
  • Haebom

Auteur

Shunqi Mao, Chaoyi Zhang, Weidong Cai

Contour

Les modèles vision-langage (MLV) existants souffrent d'hallucination visuelle, un phénomène dans lequel les réponses générées contiennent des inexactitudes indépendantes de l'entrée visuelle. Les tentatives visant à résoudre ce problème sans ajustement fin du modèle atténuent principalement l'hallucination en réduisant les biais linguistiques de contraste ou en amplifiant le poids des inclusions visuelles lors du décodage. Cependant, ces approches sont limitées dans leur capacité à capturer les détails visuels fins. Dans cette étude, nous proposons Perception Magnifier (PM), une nouvelle méthode de décodage visuel qui isole de manière itérative les jetons visuels pertinents et agrandit ces régions en fonction des mécanismes d'attention, guidant ainsi le modèle à se concentrer sur les détails visuels fins lors du décodage. PM améliore l'analyse des entrées visuelles par le MLV en agrandissant les régions critiques tout en préservant les informations structurelles et contextuelles à chaque étape du décodage, ce qui lui permet de générer des réponses plus précises et plus fidèles. De nombreux résultats expérimentaux démontrent que PM non seulement atténue l'hallucination, mais améliore également la production langagière tout en maintenant de solides capacités d'inférence.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode de décodage visuel (PM) qui atténue efficacement les problèmes d’hallucinations visuelles en capturant des détails visuels fins.
Des résultats expérimentaux ont démontré une performance supérieure en matière de soulagement des hallucinations et une capacité de génération de langage améliorée par rapport aux méthodes existantes.
Amélioration réussie de la précision visuelle tout en maintenant de solides capacités de raisonnement.
Limitations:
La possibilité que les améliorations de performances du PM soient limitées à des ensembles de données ou à des architectures de modèles spécifiques.
Des recherches supplémentaires sont nécessaires sur les capacités de généralisation à des environnements visuels plus complexes et plus diversifiés.
Augmentation potentielle des coûts de calcul.
👍