Cet article considère les diverses tâches de génération de langage naturel à partir de séquences d'images ou de vidéos comme des cas particuliers du problème plus général de la modélisation des relations complexes entre les événements visuels se déroulant dans le temps et les caractéristiques linguistiques utilisées pour les interpréter ou les décrire. Si les recherches antérieures se sont concentrées sur diverses tâches de traitement visuel du langage naturel, la nature et l'étendue des interactions intermodales ont fait défaut. Par conséquent, cet article présente cinq tâches différentes, examine les approches de modélisation et d'évaluation utilisées dans ces tâches et identifie les défis communs et les orientations de recherche futures.