Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ELV-Halluc : Analyse comparative des hallucinations d'agrégation sémantique dans la compréhension de longues vidéos

Created by
  • Haebom

Auteur

Hao Lu, Jiahao Wang, Yaolun Zhang, Ruohui Wang, Xuanyu Zheng, Yepeng Tang, Dahua Lin, Lewei Lu

Contour

Cet article se concentre sur le problème des hallucinations dans les modèles de langage vidéo multimodaux à grande échelle (Video-MLLM), et plus particulièrement sur les hallucinations par agrégation sémantique (SAH) survenant dans les vidéos de longue durée. Contrairement aux études précédentes qui se concentraient principalement sur les vidéos de courte durée et simplifiaient les causes des hallucinations, cet article propose une analyse approfondie des SAH, qui surviennent dans le contexte sémantique complexe des vidéos de longue durée. Les SAH sont un phénomène pour lequel la sémantique image par image est précise, mais dont l'agrégation en unités événement par événement produit des résultats erronés. Ce phénomène est particulièrement grave dans les vidéos de longue durée. Pour résoudre ce problème, nous proposons un nouveau benchmark pour les hallucinations vidéo de longue durée, ELV-Halluc, et vérifions la présence de SAH en analysant sa corrélation avec la complexité sémantique et le taux de changement sémantique. De plus, nous proposons une méthode pour atténuer les SAH en utilisant des stratégies d'encodage positionnel et de décalage positionnel dynamique (DPO). Nous démontrons une amélioration des performances du modèle sur un ensemble de données composé de 8 000 paires de données contradictoires. Au final, nous obtenons une réduction de 27,7 % du taux d'hémorragie sous-arachnoïdienne.

Takeaways, Limitations

Takeaways:
Video-MLLM offre une compréhension plus approfondie du problème des hallucinations dans les vidéos à long terme, en particulier le phénomène SAH.
Nous analysons quantitativement les causes et la gravité de l’HSA et révélons leur corrélation avec la complexité sémantique et le taux de changement sémantique.
Nous proposons et vérifions expérimentalement des méthodes efficaces (stratégie de codage de position, stratégie DPO) pour l'atténuation de l'HSA.
Nous présentons une nouvelle référence, ELV-Halluc, pour évaluer les hallucinations vidéo à long terme.
Nous publions un nouvel ensemble de données composé de 8 000 paires de données contradictoires.
Limitations:
Le benchmark ELV-Halluc en est encore à ses débuts et pourrait nécessiter une extension supplémentaire vers un ensemble de données plus diversifié et plus complet.
D’autres études sont nécessaires pour déterminer si la méthode de soulagement de l’HSA proposée est efficace pour tous les types d’hallucinations vidéo prolongées.
Il existe un manque d’analyse d’autres types d’hallucinations vidéo prolongées autres que l’HSA.
👍