Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation

Created by
  • Haebom
Category
Empty

저자

Zun Wang, Jialu Li, Han Lin, Jaehong Yoon, Mohit Bansal

개요

DREAMRUNNER는 스토리텔링 비디오 생성(SVG)을 위한 새로운 방법론입니다. 대규모 언어 모델(LLM)을 사용하여 입력 스크립트를 구조화하여 장면 계획 및 객체 수준 레이아웃 계획을 수행합니다. DREAMRUNNER는 검색 증강 테스트 시간 적응을 통해 각 장면에서 객체의 움직임 사전 정보를 캡처하고, 검색된 비디오를 기반으로 다양한 움직임 사용자 정의를 지원하여 복잡한 스크립트된 움직임을 가진 새로운 비디오를 생성합니다. 또한 SR3AI 모듈을 제안하여 세분화된 객체-모션 바인딩 및 프레임별 시공간 의미 제어를 수행합니다. DREAMRUNNER는 캐릭터 일관성, 텍스트 정렬, 부드러운 전환에서 최첨단 성능을 보이며, T2V-ComBench에서 뛰어난 성능을 보입니다.

시사점, 한계점

시사점:
캐릭터 일관성, 텍스트 정렬, 부드러운 전환에서 SOTA 달성.
T2V-ComBench에서 뛰어난 성능.
복잡한 객체 상호 작용 생성 가능.
세부적인 객체-모션 바인딩 및 시공간 제어 구현.
한계점:
논문 내용만으로는 구체적인 한계점을 파악하기 어려움 (추가 정보 필요).
검색된 비디오의 품질에 의존적일 수 있음.
모델의 복잡성으로 인해 계산 비용이 높을 수 있음.
👍