[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FIQ : Génération de questions fondamentales avec intégration de questions intégrées pour les réponses vidéo aux questions

Created by
  • Haebom

Auteur

Ju-Young Oh, Ho-Joong Kim, Seong-Whan Lee

Contour

Cet article souligne que les méthodes existantes de questions-réponses vidéo (VQA) reposent sur des annotations pilotées par événements, qui ne parviennent pas à capturer correctement le contexte de la vidéo. Pour surmonter cette limitation, nous proposons une nouvelle approche : la génération de questions fondamentales avec intégration d'intégrations de questions pour les questions-réponses vidéo (FIQ). Cette approche génère des paires questions-réponses fondamentales à partir de descriptions extraites des vidéos. La FIQ permet au modèle de comprendre les informations de base de la scène grâce aux paires questions-réponses générées, améliorant ainsi les capacités de généralisation et d'inférence. De plus, nous exploitons le module VQ-CAlign pour associer les intégrations de questions à des caractéristiques visuelles afin d'améliorer leur adaptabilité à des tâches spécifiques. Des expériences sur le jeu de données SUTD-TrafficQA démontrent ses performances par rapport aux méthodes existantes.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour améliorer la capacité d’inférence des modèles VQA en améliorant la compréhension de base des vidéos.
Amélioration de la généralisation du modèle et de la capacité d'inférence grâce aux paires questions-réponses générées.
Adaptabilité accrue à des tâches spécifiques grâce au module VQ-CAlign.
Atteindre des performances de pointe sur l'ensemble de données SUTD-TrafficQA.
Limitations:
Les performances de la méthode proposée peuvent être limitées à un ensemble de données spécifique (SUTD-TrafficQA).
Les performances peuvent être affectées par la qualité des paires question-réponse générées.
Une analyse plus approfondie de l’efficacité du module VQ-CAlign est nécessaire.
Les résultats expérimentaux sur d’autres ensembles de données VQA ne sont pas présentés.
👍