[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VidéoITG : Compréhension vidéo multimodale avec ancrage temporel instruit

Created by
  • Haebom

Auteur

Shihao Wang, Guo Chen, De-an Huang, Zhiqi Li, Minghan Li, Guilin Li, Jose M. Alvarez, Lei Zhang, Zhiding Yu

Contour

Dans cet article, nous proposons la méthode VideoITG (Instructed Temporal Grounding for Videos), une nouvelle méthode de sélection d'images guidée par les instructions utilisateur afin d'améliorer les performances des Video-LLM. VideoITG s'appuie sur VidThinker, un framework d'annotation automatique. Il comprend trois étapes : la génération de sous-titres détaillés au niveau du clip, guidés par les instructions utilisateur, la récupération des segments vidéo pertinents par inférence basée sur les instructions, et une sélection d'images fine pour identifier avec précision les preuves visuelles riches. Grâce à VidThinker, nous avons construit l'ensemble de données VideoITG-40K contenant 40 000 vidéos et 500 000 annotations, et conçu un modèle VideoITG prêt à l'emploi qui exploite les capacités d'alignement et d'inférence du langage visuel des Video-LLM. Les résultats expérimentaux démontrent des améliorations constantes des performances sur divers benchmarks de compréhension vidéo multimodale, démontrant ainsi sa supériorité et son potentiel pour la compréhension vidéo.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour améliorer les performances des Video-LLM en utilisant la sélection d'images basée sur les instructions de l'utilisateur.
Présentation de la possibilité de créer des ensembles de données efficaces grâce au cadre d'annotation automatique VidThinker.
Les modèles VideoITG Plug-and-play sont applicables à une variété de Video-LLM.
Nous démontrons des améliorations de performances sur une variété de tests de compréhension de vidéos multimodales.
L'ensemble de données VideoITG-40K fournit une ressource précieuse pour les recherches futures.
Limitations:
Une validation supplémentaire de la précision de l’annotation automatique et des performances de généralisation de VidThinker est nécessaire.
Dégradation possible des performances pour certains types de vidéos ou de directives.
Des recherches supplémentaires sont nécessaires sur l’efficacité et l’évolutivité des vidéos de longue durée.
Il est nécessaire d’évaluer les performances de généralisation dans des contextes linguistiques et culturels divers.
👍