본 논문은 텍스트를 비디오로 생성하는 생성형 AI의 핵심 과제인 시간적 일관성, 구성적 이해, 세밀한 제어를 해결하기 위해 MOVAI (Multimodal Original Video AI)라는 새로운 계층적 프레임워크를 제시한다. MOVAI는 텍스트 설명을 계층적 장면 그래프로 분해하는 Compositional Scene Parser (CSP), 프레임 간의 일관된 움직임 역학을 보장하는 Temporal-Spatial Attention Mechanism (TSAM), 그리고 다중 스케일 시간적 추론을 통해 비디오 품질을 반복적으로 향상시키는 Progressive Video Refinement (PVR) 모듈을 통합한다. 실험 결과, MOVAI는 기존 방법 대비 LPIPS 15.3%, FVD 12.7%, 사용자 선호도 연구에서 18.9% 향상된 성능을 보였다. 특히, 복잡한 다중 객체 장면을 현실적인 시간적 역학과 세밀한 의미론적 제어와 함께 생성하는 데 강점을 보인다.