본 논문은 MM-DiT 아키텍처 기반의 Sora와 같은 비디오 생성 모델의 한계를 극복하고자, 다중 순차 프롬프트를 활용한 일관성 있는 비디오 생성을 위한 새로운 방법인 DiTCtrl을 제안한다. 기존 다중 프롬프트 비디오 생성 방법들이 엄격한 데이터 요구사항, 약한 프롬프트 준수, 부자연스러운 전환 등의 문제점을 가지는 것과 달리, DiTCtrl은 추가적인 훈련 없이 MM-DiT 아키텍처의 3D 풀 어텐션 메커니즘을 활용하여 매끄러운 전환과 일관된 객체 움직임을 가진 비디오를 생성한다. 이를 위해 다중 프롬프트 비디오 생성 작업을 매끄러운 전환을 포함하는 시간적 비디오 편집으로 취급하며, 어텐션 공유를 통해 마스크 기반의 정밀한 의미론적 제어를 가능하게 한다. 또한, 다중 프롬프트 비디오 생성 성능 평가를 위한 새로운 벤치마크인 MPVBench를 제시한다. 실험 결과, DiTCtrl은 추가 훈련 없이 최첨단 성능을 달성함을 보여준다.