본 논문은 실시간 상호작용 환경에서 비디오에 대한 언어 생성을 위한 새로운 벤치마크 과제인 시간 기반 언어 생성(Temporally-Grounded Language Generation, TGLG)을 제안합니다. 기존의 비전-언어 모델(Vision-Language Models, VLMs)은 오프라인 작업에서 뛰어난 성능을 보였지만, 실시간 환경에서는 의미 정확성뿐 아니라 정확한 타이밍까지 고려해야 합니다. 이를 위해 논문에서는 지각 업데이트(perceptual updating)와 상황 인식(contingency awareness) 두 가지 핵심 기능을 제시하고, 스포츠 중계 및 1인칭 시점의 인간 상호작용 영역에서 수집한 데이터셋을 기반으로 TGLG 벤치마크를 구축합니다. 새로운 평가 지표인 TRACE를 도입하여 의미적 유사성과 시간 정렬을 동시에 측정하고, 시간 동기화된 토큰 교차(Time-Synchronized Interleaving)를 사용하는 VLM-TSI 모델을 제안하여 실시간 언어 생성을 수행합니다. 실험 결과 VLM-TSI는 기존 모델보다 성능이 뛰어나지만, 여전히 개선의 여지가 있음을 보여줍니다. 코드와 데이터는 공개되어 있습니다.