DreamRunner는 스토리텔링 비디오 생성(SVG)을 위한 새로운 방법론으로, 대규모 언어 모델(LLM)을 활용하여 스크립트를 장면 단위 및 객체 단위로 구조화합니다. 기존 방법들의 한계인 복잡한 단일 장면 묘사의 시각화 문제를 해결하기 위해, DreamRunner는 검색 기반 테스트 시간 적응(retrieval-augmented test-time adaptation)을 통해 객체의 목표 동작 사전 정보를 캡처하고, 공간-시간 영역 기반 3D 어텐션 및 사전 주입 모듈(SR3AI)을 사용하여 객체 동작 바인딩과 프레임 단위 의미 제어를 수행합니다. 이를 통해 다양한 객체의 복잡한 동작과 상호작용을 포함하는 고품질 비디오 생성을 가능하게 합니다. T2V-ComBench에서 기존 방법들보다 우수한 성능을 보이며, 캐릭터 일관성, 텍스트 정합성, 부드러운 전환 등에서 최첨단 성능을 달성했습니다.