[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉValuation unifiée des hallucinations au niveau du triplet pour les grands modèles vision-langage

Created by
  • Haebom

Auteur

Junjie Wu, Tsz Ting Chung, Kai Chen, Dit-Yan Yeung

Contour

Cet article aborde le problème des hallucinations dans les modèles vision-langage à grande échelle (MLVL), en particulier celui des hallucinations relationnelles. Contrairement aux travaux précédents qui se concentraient principalement sur les hallucinations d'objets eux-mêmes, cet article présente un cadre unifié prenant en compte simultanément les objets et les relations. À cette fin, nous proposons un nouveau benchmark, Tri-HE, qui évalue les hallucinations à l'aide de triplets (objet, relation, objet). Les résultats expérimentaux obtenus avec Tri-HE montrent que les hallucinations relationnelles constituent un problème plus grave que les hallucinations d'objets, et nous proposons une approche simple et sans apprentissage pour les atténuer. L'ensemble de données et le code sont accessibles au public.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau benchmark, Tri-HE, pour évaluer systématiquement les problèmes d'hallucination relationnelle et d'objet.
Il a été démontré expérimentalement que les hallucinations relationnelles constituent un problème plus grave que les hallucinations d’objets.
Proposer une méthode efficace et sans formation pour soulager les problèmes d'hallucinations relationnelles.
Proposer des orientations de recherche importantes pour améliorer la fiabilité du LVLM.
Limitations:
Le potentiel d’amélioration des performances de la méthode sans formation proposée peut être limité.
Le benchmark Tri-HE peut ne pas couvrir de manière exhaustive tous les types d’hallucinations relationnelles.
Des relations visuelles plus complexes et variées peuvent nécessiter une évaluation plus approfondie des hallucinations.
👍