Este artículo considera las diversas tareas de generación de lenguaje natural a partir de secuencias de imágenes o vídeos como casos particulares del problema más general de modelar las complejas relaciones entre eventos visuales que se desarrollan temporalmente y las características lingüísticas utilizadas para interpretarlos o describirlos. Si bien la investigación previa se ha centrado en diversas tareas de procesamiento del lenguaje natural visual, se ha carecido de información sobre la naturaleza y el alcance de las interacciones intermodales. Por lo tanto, este artículo presenta cinco tareas diferentes, examina los enfoques de modelado y evaluación utilizados en ellas e identifica desafíos comunes y futuras líneas de investigación.