Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GLSim : Détection d'hallucinations d'objets dans les LVLM via la similarité globale-locale

Created by
  • Haebom

Auteur

Parc Seongheon, Yixuan Li

Contour

Cet article propose GLSim, un nouveau cadre d'analyse pour améliorer la fiabilité de la détection d'hallucinations d'objets dans les modèles vision-langage à grande échelle. Contrairement aux méthodes existantes qui ne prennent en compte que les perspectives globales ou locales, GLSim combine des informations complémentaires en exploitant les signaux de similarité d'intégration globaux et locaux entre les modes image et texte. Les résultats expérimentaux démontrent que GLSim surpasse les méthodes existantes pour la détection d'hallucinations d'objets.

Takeaways, Limitations

Takeaways:
Nous démontrons que l’intégration d’informations globales et locales entre les modes image et texte peut améliorer la précision et la fiabilité de la détection des hallucinations d’objets.
Présente une nouvelle approche qui surmonte les limites des méthodes existantes.
Une approche sans formation, augmentant la facilité d’application.
Limitations:
Une validation supplémentaire est nécessaire pour déterminer si les performances de GLSim sont systématiquement supérieures dans une variété de scénarios.
Une dégradation des performances peut encore se produire pour certains types d’hallucinations d’objets.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité des résultats expérimentaux présentés dans cet article.
👍