Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VSI : intégration de sous-titres visuels pour la sélection d'images clés afin d'améliorer la compréhension des longues vidéos

Created by
  • Haebom

Auteur

Jianxiang He, Meisheng Hong, Jungang Li, Yijie Xu, Ziyang Chen, Weiyu Guo, Hui Xiong

Contour

Cet article propose l'intégration visuelle des sous-titres (VSI), une méthode efficace de recherche d'images clés pour la compréhension des vidéos longues. Pour pallier les limites des méthodes existantes de recherche d'images clés, notamment un faible alignement multimodal entre les requêtes textuelles et le contenu visuel, et une incapacité à capturer des informations sémantiques temporelles complexes, VSI intègre les sous-titres, les horodatages et les limites de scène dans un processus de recherche multimodal unifié. Elle exploite les informations visuelles et textuelles complémentaires des images vidéo via un flux de recherche vidéo et un flux de correspondance des sous-titres, et améliore la précision de la recherche d'images clés grâce à l'interaction des deux flux. Sur le jeu de données LongVideoBench, VSI surpasse nettement les méthodes concurrentes en termes de précision de localisation des images clés et de tâche de questions-réponses vidéo longues (Video-QA), atteignant des performances de pointe.

Takeaways, Limitations

Takeaways:
Nous démontrons l'efficacité de la recherche d'images clés multimodales à l'aide d'informations sur les sous-titres, l'horodatage et les limites de la scène.
Une méthode de recherche d’images clés efficace et précise pour la compréhension vidéo à long terme est présentée.
Atteindre les performances SOTA sur l'ensemble de données LongVideoBench.
Vérification de la robustesse et de la généralisabilité des stratégies de recherche multimodales.
Limitations:
Des recherches supplémentaires sont nécessaires pour évaluer la généralisabilité en évaluant les performances sur un ensemble de données spécifique (LongVideoBench).
Une analyse plus approfondie de la complexité informatique et de l’efficacité du VSI est nécessaire.
Une évaluation des performances est nécessaire pour différents types de vidéos à long terme.
Applicabilité limitée aux vidéos sans sous-titres.
👍