Bài báo này xem xét các nhiệm vụ đa dạng trong việc tạo ngôn ngữ tự nhiên từ chuỗi hình ảnh hoặc video như những trường hợp đặc biệt của bài toán tổng quát hơn về mô hình hóa mối quan hệ phức tạp giữa các sự kiện thị giác diễn ra theo thời gian và các đặc điểm ngôn ngữ được sử dụng để diễn giải hoặc mô tả chúng. Mặc dù các nghiên cứu trước đây tập trung vào nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên thị giác khác nhau, nhưng bản chất và mức độ tương tác đa phương thức vẫn còn thiếu. Do đó, bài báo này trình bày năm nhiệm vụ khác nhau, xem xét các phương pháp mô hình hóa và đánh giá được sử dụng trong các nhiệm vụ này, đồng thời xác định những thách thức chung và hướng nghiên cứu trong tương lai.