본 논문은 텍스트-비디오(T2V) 합성 분야에서 오픈소스 T2V 확산 모델이 긴 비디오를 생성하는 데 어려움을 겪고, 특히 시간에 따라 역동적으로 변화하는 내용을 생성하지 못하고 정적인 비디오를 생성하는 경향이 있다는 문제를 제기합니다. 이 문제를 해결하기 위해, 추론 중 생성 과정을 변경하여 시간적 역동성을 제어하고 더 긴 비디오 생성을 가능하게 하는 '생성적 시간 간호(GTN)' 개념을 도입합니다. GTN을 위한 방법으로 VSTAR를 제안하는데, 이는 비디오 개요 프롬프팅(VSP)과 시간적 주의 정규화(TAR) 두 가지 구성 요소로 이루어져 있습니다. VSP는 대규모 언어 모델(LLM)을 활용하여 원래 단일 프롬프트를 기반으로 비디오 개요를 자동 생성하여 긴 비디오의 다양한 시각적 상태에 대한 정확한 텍스트 가이드를 제공합니다. TAR은 사전 훈련된 T2V 확산 모델의 시간적 주의 단위를 개선하여 비디오 역동성을 제어하는 정규화 기술입니다. 실험을 통해 기존 오픈소스 T2V 모델보다 더 길고 시각적으로 매력적인 비디오를 생성하는 데 제안된 방법의 우수성을 보여줍니다. 또한 VSTAR를 적용했을 때와 적용하지 않았을 때의 시간적 주의 지도를 분석하여 시간 경과에 따른 원하는 시각적 변화를 무시하는 문제를 완화하는 데 본 방법의 중요성을 입증합니다.