Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Dévoilement de la réponse des grands modèles vision-langage aux jetons visuellement absents

Created by
  • Haebom

Auteur

Sohee Kim, Soohyun Ryu, Joonhyung Park, Eunho Yang

Contour

Cet article révèle un phénomène dans lequel les modèles vision-langage à grande échelle (LVLM) perçoivent à tort des entrées textuelles sans preuve visuelle comme faisant partie d'une image, ce qui entraîne des erreurs. En étudiant la capacité des LVLM à déterminer si les concepts textuels sont ancrés dans une image, nous avons découvert des neurones de perception de l'absence visuelle (VA), un sous-ensemble spécifique de neurones du réseau à réaction directe (FFN) qui signalent l'absence visuelle par un schéma d'activation unique. En exploitant ce schéma, nous développons un module de détection qui classe les jetons d'entrée comme étant ancrés visuellement. Sur la base de cette prédiction, nous proposons une méthode pour améliorer la sortie en réinterprétant la question ou en remplaçant les jetons absents détectés lors de la génération. Des expériences approfondies démontrent que la méthode proposée atténue efficacement la tendance du modèle à formuler des hypothèses erronées sur la présence visuelle et qu'elle est généralisable à divers LVLM.

Takeaways, Limitations_

Takeaways:
Fournit de nouvelles perspectives sur le traitement des informations visuelles des LVLM.
Nous présentons une nouvelle méthode permettant de détecter une entrée de texte sans base visuelle et d’améliorer la sortie.
Nous présentons une méthodologie générale applicable à divers LVLM.
Limitations :
D’autres études sont nécessaires pour déterminer si les modèles d’activité des neurones VA sont les mêmes dans tous les LVLM.
Une validation supplémentaire est nécessaire pour déterminer dans quelle mesure la méthode proposée se généralise à différents types d’images et d’entrées de texte.
Des recherches supplémentaires sont nécessaires sur ses performances dans les cas nécessitant un raisonnement visuel complexe.
👍