Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MovieCORE : Raisonnement cognitif au cinéma

Created by
  • Haebom

Auteur

Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu

Contour

MovieCORE est un nouvel ensemble de données de questions-réponses vidéo (VQA) conçu pour explorer une compréhension cognitive plus approfondie du contenu cinématographique. Contrairement aux ensembles de données existants qui se concentrent sur une compréhension superficielle, MovieCORE se concentre sur des questions qui déclenchent la pensée du Système 2 tout en restant spécifique au contenu vidéo. Nous présentons une approche innovante de brainstorming agentique qui exploite plusieurs modèles de langage à grande échelle (LLM) comme agents de réflexion pour générer et affiner des paires questions-réponses de haute qualité. Pour évaluer la qualité de l'ensemble de données, nous avons développé un ensemble de tests cognitifs qui évaluent la profondeur, le potentiel de réflexion et la complexité syntaxique. Nous proposons également un cadre d'évaluation complet pour évaluer les performances du modèle VQA sur des tâches cognitives plus approfondies. Pour pallier les limites des modèles de langage vidéo (VLM) existants, nous introduisons Agentic Choice Enhancement (ACE), un module d'amélioration agentique qui améliore la capacité d'inférence du modèle jusqu'à 25 % après apprentissage. Cette recherche contribue à l'avancement de la compréhension cinématographique dans les systèmes d'IA et fournit des informations précieuses sur les capacités et les limites des modèles VQA actuels face à des questions plus complexes et plus nuancées sur le contenu cinématographique. La page du projet, l'ensemble de données et le code se trouvent à l'adresse https://joslefaure.github.io/assets/html/moviecore.html .

Takeaways, Limitations

Takeaways:
Nous présentons MovieCORE, un nouvel ensemble de données VQA qui évalue la compréhension cognitive approfondie du contenu des films.
Générer des paires questions-réponses de haute qualité grâce à une approche innovante de brainstorming agentique utilisant LLM.
Proposer un système d'évaluation complet pour évaluer les performances des tâches cognitives profondes des modèles VQA.
Développement du module ACE pour améliorer la capacité d'inférence de VLM.
Contribuer à l’avancement de la compréhension des films par les systèmes d’IA.
Limitations:
Absence de mention spécifique de la taille et de la diversité de l'ensemble de données MovieCORE.
Les améliorations de performances du module ACE peuvent être limitées à des ensembles de données et modèles spécifiques.
Une validation supplémentaire de l’objectivité et de la fiabilité du test cognitif proposé est nécessaire.
👍