Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VideoCogQA : une référence contrôlable pour l'évaluation des capacités cognitives dans les modèles de langage vidéo

Created by
  • Haebom

Auteur

Chenglin Li, Qianglong Chen, Zhi Li, Feng Tao, Yin Zhang

Contour

Dans cet article, nous proposons VideoCogQA, un nouveau benchmark pour évaluer les capacités cognitives des modèles vidéo-langage à grande échelle (LVLM), notamment leur capacité à effectuer des tâches complexes impliquant la perception symbolique et abstraite. Pour pallier les limites des benchmarks existants, nous avons conçu un moteur de génération de vidéos synthétiques permettant un contrôle précis des éléments visuels, de la dynamique temporelle et de la difficulté des tâches. VideoCogQA se compose de 800 vidéos et de 3 280 paires questions-réponses impliquant des tâches impliquant des concepts abstraits, des éléments symboliques et une intégration multimodale. Les résultats expérimentaux montrent que même les modèles de pointe tels que GPT-4o n'atteignent qu'une performance moyenne de 48,8 % sur les tâches impliquant des concepts abstraits, et que leur performance diminue de 15 % à mesure que la complexité de la tâche augmente, ce qui suggère que les LVLM peinent à maintenir des performances constantes.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau benchmark, VideoCogQA, qui permet une évaluation approfondie des capacités cognitives des LVLM, en particulier la pensée abstraite et la compréhension symbolique.
Nous constatons que même les LVLM de pointe présentent des performances relativement médiocres sur les concepts abstraits et les tâches complexes.
Proposer des pistes de recherche pour améliorer les capacités cognitives des LVLM.
Limitations:
ÉTant donné que VideoCogQA est basé sur des données synthétiques, ses performances de généralisation aux données du monde réel nécessitent une validation supplémentaire.
ÉTant donné que la portée du critère de référence peut être limitée, des tâches supplémentaires doivent être développées pour englober différents types de capacités cognitives.
👍