Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HalluSegBench : Raisonnement visuel contrefactuel pour l'évaluation des hallucinations de segmentation

Created by
  • Haebom

Auteur

Xinzhuo Li, Adheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou

Contour

Dans cet article, nous proposons un nouveau benchmark, HalluSegBench, pour résoudre le problème des hallucinations dans les modèles de segmentation du langage visuel. Contrairement aux méthodes d'évaluation existantes qui se concentrent uniquement sur les hallucinations d'étiquettes ou de textes sans tenir compte du contexte visuel, HalluSegBench évalue les hallucinations par inférence visuelle contrefactuelle. Nous présentons un nouvel ensemble de données composé de 1 340 paires d'instances contrefactuelles réparties sur 281 classes d'objets distinctes, ainsi qu'une nouvelle mesure quantifiant la sensibilité aux hallucinations lors d'un montage de scène visuellement cohérent. Les résultats expérimentaux obtenus sur des modèles de segmentation du langage visuel de pointe montrent que les hallucinations visuelles sont beaucoup plus fréquentes que celles basées sur les étiquettes et que les modèles ont tendance à persister dans des segmentations incorrectes, soulignant la nécessité d'une inférence contrefactuelle pour diagnostiquer la fidélité sous-jacente.

Takeaways, Limitations

Takeaways:
Présentation de HalluSegBench, une nouvelle référence pour le diagnostic et la résolution des problèmes d'hallucinations dans les modèles de segmentation du langage visuel
Les hallucinations visuelles sont plus graves que les hallucinations liées à une étiquette
Souligner l’importance du raisonnement visuel semi-réaliste
Contribuer à améliorer les performances des futurs modèles de segmentation du langage visuel et à résoudre les problèmes d'hallucinations
Limitations:
La taille de l'ensemble de données HalluSegBench peut encore être limitée (1340 paires).
La généralité du nouvel indicateur proposé et son applicabilité à d’autres types d’hallucinations doivent être vérifiées.
Des expériences complètes supplémentaires sur divers modèles de segmentation du langage visuel peuvent être nécessaires.
👍