Dans cet article, nous proposons VideoCogQA, un nouveau benchmark pour évaluer les capacités cognitives des modèles vidéo-langage à grande échelle (LVLM), notamment leur capacité à effectuer des tâches complexes impliquant la perception symbolique et abstraite. Pour pallier les limites des benchmarks existants, nous avons conçu un moteur de génération de vidéos synthétiques permettant un contrôle précis des éléments visuels, de la dynamique temporelle et de la difficulté des tâches. VideoCogQA se compose de 800 vidéos et de 3 280 paires questions-réponses impliquant des tâches impliquant des concepts abstraits, des éléments symboliques et une intégration multimodale. Les résultats expérimentaux montrent que même les modèles de pointe tels que GPT-4o n'atteignent qu'une performance moyenne de 48,8 % sur les tâches impliquant des concepts abstraits, et que leur performance diminue de 15 % à mesure que la complexité de la tâche augmente, ce qui suggère que les LVLM peinent à maintenir des performances constantes.