본 논문은 기존 이미지 기반 확산 모델을 활용하여 제로샷, 학습 불필요 방식으로 이미지 기반 텍스트-비디오 생성을 수행하는 모델-애그노스틱 접근법을 제시한다. 기존 방법들이 이미지 생성 모델의 특정 구조 변경을 필요로 하는 것과 달리, 본 논문에서는 잠재값만을 사용하여 확산 궤적의 교차점을 활용한다. 궤적 교차점만으로는 프레임 단위 일관성과 다양성을 확보할 수 없어, 그리드 기반 접근법을 사용한다. 문맥 내 학습된 LLM을 활용하여 일관된 프레임 단위 프롬프트를 생성하고, 다른 LLM을 사용하여 프레임 간 차이를 식별한다. 이를 바탕으로 CLIP 기반 어텐션 마스크를 생성하여 각 그리드 셀의 프롬프트 전환 시점을 제어하며, 전환 시점을 조절하여 일관성과 다양성 간의 균형을 맞춘다. 정량적 지표 및 사용자 연구를 통한 실험 분석 결과, 본 모델은 우수한 시간적 일관성, 시각적 충실도 및 사용자 만족도를 보이며, 학습 없이 이미지 기반 텍스트-비디오 생성을 위한 새로운 방법을 제시한다.