본 논문은 텍스트-비디오 생성(T2V)에서 다중 이동 객체의 움직임 궤적 제어라는 어려운 문제를 해결하기 위해 계층적 생성 방식인 LayerT2V를 제시합니다. 기존 T2V 모델들은 주로 단일 객체 움직임에 초점을 맞추고, 다중 객체가 상호 작용하는 경우 성능이 저하되는 문제를 가지고 있습니다. LayerT2V는 배경과 전경 객체를 계층적으로 합성하여 비디오를 생성함으로써, 각 객체의 움직임을 독립적으로 제어하고 객체 간의 상호 작용을 효과적으로 처리합니다. 실험 결과, LayerT2V는 기존 최첨단(SOTA) 방법보다 mIoU와 AP50 지표에서 각각 1.4배와 4.5배 향상된 성능을 보였습니다.