Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling

Created by
  • Haebom

저자

Qian Wang, Ziqi Huang, Ruoxi Jia, Paul Debevec, Ning Yu

개요

MAViS는 장편 비디오 스토리텔링을 위한 엔드투엔드 다중 에이전트 협업 프레임워크입니다. 스크립트 작성, 샷 디자인, 캐릭터 모델링, 키프레임 생성, 비디오 애니메이션, 오디오 생성 등 여러 단계에서 특화된 에이전트를 조율합니다. 각 단계에서 에이전트는 탐색(Explore), 검토(Examine), 향상(Enhance)의 3E 원칙에 따라 작동하여 중간 출력의 완성도를 보장합니다. 현재 생성 모델의 한계를 고려하여 스크립트와 생성 도구 간의 호환성을 최적화하기 위한 스크립트 작성 가이드라인을 제시합니다. 실험 결과, MAViS는 보조 기능, 시각적 품질, 비디오 표현력 측면에서 최첨단 성능을 달성했습니다. 모듈식 프레임워크는 다양한 생성 모델 및 도구와의 확장성을 가능하게 합니다. 간략한 사용자 프롬프트만으로도 고품질의 표현력 있는 장편 비디오 스토리텔링을 생성하며, 사용자의 영감과 창의성을 풍부하게 합니다. MAViS는 내러티브와 배경 음악이 포함된 비디오와 같은 다중 모드 디자인 출력을 제공하는 유일한 프레임워크입니다.

시사점, 한계점

시사점:
장편 비디오 생성의 보조 기능, 시각적 품질, 표현력을 크게 향상시켰습니다.
다양한 생성 모델 및 도구와의 확장성을 제공하는 모듈식 프레임워크를 제시했습니다.
간략한 프롬프트로 고품질의 다중 모드(비디오, 내러티브, 배경 음악) 출력을 생성합니다.
스크립트 작성 가이드라인을 통해 생성 모델의 한계를 극복하는 방안을 제시했습니다.
한계점:
논문에서는 구체적인 한계점이 언급되지 않았습니다. 향후 연구를 통해 개선될 여지가 있는 부분 (예: 특정 유형의 스토리텔링에 대한 성능 제약, 계산 비용, 생성된 콘텐츠의 다양성 제한 등)이 존재할 수 있습니다.
👍