Cet article souligne que malgré l'amélioration des performances des modèles vision-langage à grande échelle (LVLM) dans la réponse visuelle aux questions (VQA), l'interprétation de la localisation de l'attention visuelle des modèles reste complexe. Nous présentons un cadre léger et indépendant du modèle, GLIMPSE, permettant d'attribuer conjointement les résultats des LVLM aux preuves visuelles et aux indices textuels les plus pertinents. GLIMPSE combine l'attention pondérée par le gradient, la propagation adaptative de la couche et l'agrégation de jetons pondérée par la pertinence pour générer des cartes thermiques globales au niveau des réponses afin d'interpréter l'inférence intermodale, surpassant ainsi les méthodes d'interprétabilité existantes et atteignant des performances de pointe en matière d'alignement humain. Nous démontrons qu'une approche d'IA explicable analytique (XAI) utilisant GLIMPSE fournit des informations détaillées sur l'attribution intermodale des LVLM, trace la dynamique d'inférence, analyse les inadéquations attentionnelles humaines systématiques, diagnostique les hallucinations, expose les biais et garantit la transparence.