Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

IPFormer-VideoLLM : Améliorer la compréhension vidéo multimodale pour les scènes à prises multiples

Created by
  • Haebom

Auteur

Yujia Liang, Jile Jiao, Xuetao Feng, Zixuan Ye, Yuan Wang, Zhicheng Wang

Contour

Dans cet article, nous présentons un nouvel ensemble de données, MultiClip-Bench, qui propose des paires de questions-réponses denses, basées sur des descriptions et des instructions, adaptées aux scénarios multi-plans. Cette approche vise à relever les défis rencontrés par les modèles de langage vidéo (VideoLLM) existants dans les scénarios multi-plans (clips vidéo contenant différents angles de caméra ou changements de scène). Nous analysons le problème de l'encodage incomplet des informations sur les objets par les modèles existants et proposons un nouveau modèle, IPFormer-VideoLLM, qui injecte des caractéristiques au niveau des objets sous forme d'invites d'instance via une concaténation efficace basée sur l'attention. Les résultats expérimentaux démontrent que l'ensemble de données et les modèles proposés améliorent significativement la compréhension des vidéos multi-scènes et offrent des avantages distinctifs sur divers benchmarks vidéo.

Takeaways, Limitations

____T34_____:
Présentation de MultiClip-Bench, un nouvel ensemble de données pour la compréhension des vidéos multi-prises
Proposer un nouveau modèle IPFormer-VideoLLM pour résoudre le problème de la perte d'informations sur les objets
Amélioration des performances de compréhension vidéo multi-scènes et démonstration de performances supérieures sur divers benchmarks
____T35_____:
Une réflexion supplémentaire est nécessaire concernant la taille et la diversité de l’ensemble de données MultiClip-Bench.
Une analyse plus approfondie du coût de calcul et de l’efficacité d’IPFormer-VideoLLM est nécessaire.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du modèle proposé.
👍