Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les grands modèles vidéo multimodaux peuvent-ils penser comme des sceptiques ou doubler la mise : une étude sur l'implication vidéo irréfutable

Created by
  • Haebom

Auteur

Yue Zhang, Jilei Sun, Yunhui Guo, Vibhav Gogate

Contour

Cet article vise à améliorer la capacité d'inférence des modèles multimodaux vidéo à grande échelle (VLMM), en se concentrant sur l'amélioration de la capacité d'inférence abstraite et adaptative pour modifier l'interprétation lorsque de nouvelles informations apparaissent. Pour résoudre le problème de dérivation de conclusions fixes des VLMM existants, nous présentons une nouvelle tâche, « Implications vidéo réfutables » (DVidE). Étant donné une prémisse vidéo et une hypothèse textuelle, DVidE comprend une tâche de classification qui détermine si de nouvelles informations renforcent ou affaiblissent l'hypothèse, et une tâche de génération qui génère des informations mises à jour modifiant la relation d'implicature avec l'hypothèse. Pour la tâche de classification, nous proposons un cadre de « chaîne de pensée contrefactuelle » qui utilise l'inférence contrefactuelle, le contenu vidéo amélioré par la reconnaissance automatique de la parole (ASR) et l'amélioration des preuves pour réduire le biais d'inférence. Pour la tâche de génération, nous développons un cadre qui combine la sortie de la reconnaissance automatique de la parole (ASR) et un modèle de langage à grande échelle (LLM) pour générer des informations mises à jour contextuelles. De plus, nous présentons un nouvel ensemble de données de référence comprenant des annotations de renforcement/affaiblissement et une métrique d'évaluation basée sur LLM pour évaluer les performances de génération. Les résultats expérimentaux montrent que la méthode proposée est efficace pour améliorer la capacité d'inférence dynamique des VLMM.

Takeaways, Limitations_

Takeaways:
Une nouvelle approche pour améliorer la capacité d'inférence adaptative des VLMM (tâche DVidE)
Développement d'un cadre qui utilise efficacement le raisonnement contrefactuel, l'ASR et le LLM
Fournir de nouveaux ensembles de données de référence et des mesures d'évaluation
Vérification expérimentale de l'amélioration de la capacité d'inférence dynamique des VLMM
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée et son applicabilité à divers types de vidéos.
Limitations de la taille et de la diversité des nouveaux ensembles de données de référence
Une vérification plus approfondie de l’objectivité et de la fiabilité des indicateurs d’évaluation basés sur le LLM est nécessaire.
👍