Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MESH – Comprendre les vidéos comme les humains : mesurer les hallucinations dans les grands modèles vidéo

Created by
  • Haebom

Auteur

Garry Yang, Zizhe Chen, Man Hon Wong, Haoyu Lei, Yongqiang Chen, Zhenguo Li, Kaiwen Zhou, James Cheng

Contour

Cet article propose MESH, un nouveau benchmark pour l'évaluation systématique des hallucinations dans les modèles vidéo à grande échelle (MVL). Pour surmonter les limites des benchmarks existants, MESH utilise une approche par questions-réponses pour évaluer les objets de base, les caractéristiques détaillées et les paires sujet-action de manière multicouche. Cette approche imite le processus humain de compréhension vidéo, visant à identifier plus précisément les causes des hallucinations dans les MVL. Les résultats expérimentaux démontrent que, si les MVL sont capables de reconnaître les objets et les caractéristiques de base, leur taux d'hallucinations augmente significativement dans les scènes contenant des informations détaillées ou des actions complexes impliquant plusieurs sujets.

Takeaways, Limitations_

Takeaways:
Surmontant les limites des méthodes d’évaluation des hallucinations vidéo qui s’appuient sur des méthodes de classification manuelle existantes, nous présentons de nouveaux critères d’évaluation qui reflètent les processus de perception humaine.
Développement d'un MESH de référence pour analyser de manière exhaustive le problème d'hallucination du LVM et identifier plus précisément ses causes.
Présentez clairement les forces et les faiblesses du LVM pour suggérer les orientations futures de développement du modèle.
Limitations:
Une validation supplémentaire des performances de généralisation du benchmark MESH est nécessaire.
Manque de présentation des résultats d’évaluation pour différents types de LVM.
Il est possible que cela ne reflète pas parfaitement la complexité des données vidéo réelles.
👍