Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Génération de langage naturel à partir d'événements visuels : état de l'art et questions clés ouvertes

Created by
  • Haebom

Auteur

Aditya K. Surikuchi, Raquel Fernandez, Sandro Pezzelle

Contour

Cet article considère les diverses tâches de génération de langage naturel à partir de séquences d'images ou de vidéos comme des cas particuliers du problème plus général de la modélisation des relations complexes entre les événements visuels se déroulant dans le temps et les caractéristiques linguistiques utilisées pour les interpréter ou les décrire. Si les recherches antérieures se sont concentrées sur diverses tâches de traitement visuel du langage naturel, la nature et l'étendue des interactions intermodales ont fait défaut. Par conséquent, cet article présente cinq tâches différentes, examine les approches de modélisation et d'évaluation utilisées dans ces tâches et identifie les défis communs et les orientations de recherche futures.

Takeaways, Limitations

Takeaways: En soulignant que la modélisation de la relation entre les événements visuels et le langage au fil du temps est essentielle à diverses tâches de génération de langage naturel visuel, nous proposons des pistes de recherche. Nous identifions les problèmes et les limites courants des études existantes et soulevons des questions importantes pour les recherches futures.
Limitations: Cet article ne présente pas de modèles spécifiques ni de résultats expérimentaux, mais se concentre principalement sur l'analyse des recherches existantes et suggère des pistes de recherche futures. Il pourrait manquer une analyse approfondie des cinq défis présentés.
👍