REGen: Multimodal Retrieval-Embedded Generation for Long-to-Short Video Editing
Created by
Haebom
저자
Weihan Xu, Yimeng Ma, Jingyue Huang, Yang Li, Wenye Ma, Taylor Berg-Kirkpatrick, Julian McAuley, Paul Pu Liang, Hao-Wen Dong
개요
본 논문은 긴 비디오에서 일관된 서사를 유지하면서 짧은 비디오 클립을 삽입하는 혁신적인 비디오 편집 모델을 제시합니다. 기존의 추출적 요약 방법은 일관된 서사를 생성하는 데 어려움을 겪고, 추상적 방법은 입력 비디오에서 클립을 인용할 수 없다는 한계를 가지고 있습니다. 이를 해결하기 위해, 본 논문에서는 대규모 언어 모델이 멀티모달 자원을 인용하면서 일관된 서사를 유지할 수 있도록 하는 검색 기반 생성 프레임워크(REGen)를 제안합니다. REGen은 먼저 인용 구문 자리 표시자가 포함된 스토리 스크립트를 생성하고, 이후 적절한 비디오 클립을 선택하여 자리 표시자를 대체합니다. 실험은 다큐멘터리 예고편 생성 작업에 초점을 맞추었으며, 객관적 및 주관적 평가 모두에서 기존 방법보다 우수한 성능을 보였습니다.
시사점, 한계점
•
시사점:
◦
일관된 서사를 유지하면서 짧은 비디오 클립을 효과적으로 삽입하는 새로운 비디오 편집 모델을 제시.
◦
대규모 언어 모델을 활용하여 멀티모달 자원을 인용하는 새로운 프레임워크(REGen) 제안.
◦
다큐멘터리 예고편 생성 작업에서 기존 방법보다 우수한 성능을 입증.
◦
객관적 및 주관적 평가를 통해 성능 검증.
•
한계점:
◦
제안된 방법이 다큐멘터리 예고편 생성 작업에만 집중되어 다른 유형의 비디오에 대한 일반화 가능성은 제한적일 수 있음.