Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
LVBench : un benchmark de compréhension des vidéos extrêmement longues
Created by
Haebom
Auteur
Weihan Wang, Zehai He, Wenyi Hong, Yean Cheng, Xiaohan Zhang, Ji Qi, Xiaotao Gu, Shiyu Huang, Bin Xu, Yuxiao Dong, Ming Ding, Jie Tang
Contour
Cet article met en évidence les limites des modèles linguistiques multimodaux à grande échelle et des jeux de données d'évaluation existants, axés sur la compréhension de vidéos courtes (moins d'une minute), soulignant leur incapacité à répondre aux besoins d'applications concrètes telles que l'intelligence incarnée pour la prise de décision à long terme, les critiques et discussions approfondies de films, et les commentaires sportifs en temps réel, qui nécessitent la compréhension de vidéos longues. Pour y remédier, nous proposons LVBench, un nouveau benchmark pour la compréhension de vidéos longues. LVBench se compose d'une variété de vidéos et de tâches accessibles au public ciblant la compréhension de vidéos longues et l'extraction d'informations, conçues pour évaluer la mémoire à long terme et les capacités de compréhension étendue des modèles multimodaux. Les résultats expérimentaux démontrent que les modèles multimodaux actuels restent sous-performants dans ces tâches complexes de compréhension de vidéos longues. LVBench vise à stimuler le développement de modèles plus avancés capables de répondre aux complexités de la compréhension de vidéos longues ; ses données et son code sont accessibles au public.
Takeaways, Limitations
•
Takeaways: Nous présentons LVBench, une nouvelle référence pour la compréhension d'images à long terme, qui clarifie les limites des modèles existants et suggère des pistes de recherche futures. L'ensemble de données et le code, accessibles au public, peuvent accélérer le développement de modèles multimodaux. Ils constituent une base essentielle pour le développement de technologies de compréhension d'images à long terme, nécessaires aux applications concrètes.
•
Limitations : LVBench en est encore à ses débuts ; il doit donc intégrer des types d'images et de tâches à long terme plus diversifiés. Une analyse approfondie des causes des faibles performances du modèle actuel fait défaut. L'extension de l'ensemble de données est nécessaire pour tenir compte de la diversité des contextes linguistiques et culturels.