Sign In

VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation

Created by
  • Haebom
Category
Empty

저자

Shoubin Yu, Difan Liu, Ziqiao Ma, Yicong Hong, Yang Zhou, Hao Tan, Joyce Chai, Mohit Bansal

개요

VEGGIE는 다양한 사용자 지침에 따라 비디오 개념 편집, 근거 설정 및 추론을 통합하는 간단한 종단 간 프레임워크입니다. MLLM을 사용하여 지침에서 사용자 의도를 해석하고 비디오 컨텍스트에 근거를 설정하여 픽셀 공간 응답에 대한 프레임별 근거 작업 쿼리를 생성합니다. 그런 다음 확산 모델이 이러한 계획을 렌더링하고 사용자 의도에 맞는 편집된 비디오를 생성합니다. 대규모 지침 이미지 편집 데이터를 사용하여 MLLM과 비디오 확산 모델을 정렬한 다음, 고품질 멀티태스크 비디오 데이터에 대해 종단 간 미세 조정을 수행합니다. 또한 동적 기능을 주입하기 위해 Image-to-Video 모델을 활용하여 정적 이미지 데이터를 다양한 고품질 비디오 편집 샘플로 변환하는 새로운 데이터 합성 파이프라인을 도입했습니다. VEGGIE는 다양한 편집 기술을 사용하여 지침 비디오 편집에서 강력한 성능을 보여줍니다.

시사점, 한계점

다양한 작업과 복잡한 지침을 지원하기 위해 커리큘럼 학습 전략을 사용합니다.
Image-to-Video 모델을 활용하여 새로운 데이터 합성 파이프라인을 구축하여 교육 데이터를 생성합니다.
다양한 편집 기술을 갖춘 지침 비디오 편집에서 강력한 성능을 보입니다.
제로샷 멀티모달 지침 및 문맥 내 비디오 편집과 같은 유망한 응용 프로그램을 강조합니다.
구체적인 한계점은 논문에 명시되지 않았습니다.
👍