Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MUPA : Vers un raisonnement agentique multi-chemins pour des réponses vidéo ancrées aux questions

Created by
  • Haebom

Auteur

Jisheng Dang, Huilin Song, Junbin Xiao, Bimei Wang, Han Peng, Haoxuan Li, Xun Yang, Meng Wang, Tat-Seng Chua

Contour

MUPA est une approche d'agent multi-chemins proposée pour résoudre le problème de Grounded VideoQA (Grounded Video Question Answering). Elle utilise une approche collaborative intégrant la vérification de la base vidéo, la réponse aux questions, la réflexion sur les réponses et l'agrégation. Cette approche permet de résoudre le problème des modèles multimodaux existants qui s'appuient sur des connaissances linguistiques préalables et des corrélations erronées pour produire des prédictions non fondées. Elle effectue des réponses aux questions et une vérification de la base cohérentes grâce à trois chemins d'inférence indépendants et à un agent de réflexion qui évalue et agrège les résultats multi-chemins. Avec seulement 2 milliards de paramètres, elle surpasse les modèles concurrents qui en comptent 7 milliards et atteint des performances de pointe avec un Acc@GQA de 30,3 % sur NExT-GQA et de 47,4 % sur DeVE-QA lorsqu'elle est portée à 7 milliards de paramètres.

Takeaways, Limitations

Takeaways:
Résout efficacement le problème de la dépendance excessive aux connaissances linguistiques préalables et aux fausses corrélations, qui sont des limites des modèles Grounded VideoQA existants.
Atteint des performances qui dépassent les modèles à grande échelle existants (7 milliards) même avec un petit nombre de paramètres (2 milliards).
Améliorer la compréhension fiable du langage vidéo via l'inférence multi-chemins et les agents réfléchissants.
Un nouveau record de performance de pointe dans Grounded VideoQA.
Limitations:
L'article ne mentionne pas de Limitations spécifique. Des recherches supplémentaires pourraient être nécessaires pour évaluer les performances sur différents ensembles de données ou sur des questions plus complexes.
Bien que des améliorations de performances aient été constatées lors de l'augmentation de la taille du modèle, il existe un manque d'analyse des améliorations de performances Limitations à mesure que les paramètres augmentent.
👍