Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

APERÇU : Cartographie de l'importance des couches de gradient pour l'explication de la saillance visuelle incitée pour les LVLM génératifs

Created by
  • Haebom

Auteur

Guanxi Shen

Contour

Cet article souligne que malgré l'amélioration des performances des modèles vision-langage à grande échelle (LVLM) dans la réponse visuelle aux questions (VQA), l'interprétation de la localisation de l'attention visuelle des modèles reste complexe. Nous présentons un cadre léger et indépendant du modèle, GLIMPSE, permettant d'attribuer conjointement les résultats des LVLM aux preuves visuelles et aux indices textuels les plus pertinents. GLIMPSE combine l'attention pondérée par le gradient, la propagation adaptative de la couche et l'agrégation de jetons pondérée par la pertinence pour générer des cartes thermiques globales au niveau des réponses afin d'interpréter l'inférence intermodale, surpassant ainsi les méthodes d'interprétabilité existantes et atteignant des performances de pointe en matière d'alignement humain. Nous démontrons qu'une approche d'IA explicable analytique (XAI) utilisant GLIMPSE fournit des informations détaillées sur l'attribution intermodale des LVLM, trace la dynamique d'inférence, analyse les inadéquations attentionnelles humaines systématiques, diagnostique les hallucinations, expose les biais et garantit la transparence.

Takeaways, Limitations

Takeaways:
GLIMPSE fournit un nouveau cadre léger et indépendant du modèle pour interpréter l'attention visuelle dans les modèles de langage visuel à grande échelle.
Nous avons élevé la barre en matière d’alignement humain avec des performances améliorées par rapport aux méthodes existantes.
GLIMPSE peut vous aider à accroître la transparence du modèle en analysant le processus d'inférence, les biais et les illusions du modèle.
Permet une analyse d’attribution intermodale à un niveau granulaire.
Limitations:
Des recherches supplémentaires sur les performances de généralisation de GLIMPSE pourraient être nécessaires.
Une analyse supplémentaire peut être nécessaire pour déterminer s’il existe une dépendance à un modèle ou à un ensemble de données spécifique.
Il est nécessaire d’établir des critères d’évaluation objectifs pour garantir l’exactitude et la fiabilité de l’interprétation.
👍