본 논문은 시각적 사건에 대한 자연어 처리(NLP)의 중요성을 강조하며, 단일 이미지에 대한 기술을 넘어 비디오 또는 이미지 시퀀스를 해석하고 설명하는 데 사용되는 자연어를 포괄적으로 모델링하는 연구의 부족을 지적합니다. 논문에서는 이미지 또는 프레임 시퀀스를 다루는 모든 NLG 작업이 시간에 따라 전개되는 시각적 사건과 이를 해석, 설명 또는 서술하는 데 사용되는 언어의 특징 간의 복잡한 관계를 모델링하는 더 광범위하고 일반적인 문제의 한 예라고 주장합니다. 따라서 이러한 작업을 해결하려면 모델이 이러한 복잡성을 식별하고 관리할 수 있어야 합니다. 논문에서는 이러한 광범위한 다중 모달 문제의 설득력 있는 예로 볼 수 있는 다섯 가지 작업을 고려하고, 이러한 작업들이 공통적인 과제를 제기하며 모델링 및 평가 접근 방식 측면에서 유사성을 공유한다고 주장합니다. 이러한 관점을 바탕으로 주요 미해결 과제를 파악하고 향후 연구를 위한 여러 연구 방향을 제안합니다. 시각적 사건에 대한 언어 및 비전 모델의 이해를 향상시키는 것이 시의적절하고 필수적이며, 인지 과학적 통찰력을 제공한다고 주장합니다.