Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation

Created by
  • Haebom
Category
Empty

저자

Shoubin Yu, Difan Liu, Ziqiao Ma, Yicong Hong, Yang Zhou, Hao Tan, Joyce Chai, Mohit Bansal

개요

VEGGIE는 다양한 사용자 지시에 기반한 비디오 개념 편집, 접지 및 추론을 통합하는 단일 엔드투엔드 프레임워크인, 지시어 기반 생성을 통한 비디오 편집기입니다. 사용자의 비디오와 텍스트 질의를 입력받아, MLLM을 이용하여 지시어의 의도를 해석하고 비디오 컨텍스트에 접지시켜 프레임별 접지된 작업 질의를 생성합니다. 이후 확산 모델이 이러한 계획을 렌더링하여 사용자 의도와 일치하는 편집된 비디오를 생성합니다. 다양한 작업과 복잡한 지시어를 지원하기 위해 커리큘럼 학습 전략을 사용하며, 대규모 지시 이미지 편집 데이터로 MLLM과 비디오 확산 모델을 정렬한 후, 고품질 다중 작업 비디오 데이터로 엔드투엔드 미세 조정을 수행합니다. 또한, 모델 학습을 위한 쌍으로 된 지시 비디오 편집 데이터를 생성하는 새로운 데이터 합성 파이프라인을 도입하여 이미지-비디오 모델을 활용해 정적 이미지 데이터를 다양하고 고품질의 비디오 편집 샘플로 변환합니다. VEGGIE는 다양한 편집 기술을 가진 지시 비디오 편집에서 강력한 성능을 보이며, 다중 작업에 어려움을 겪는 다른 모델들과 달리 다용도 모델로서 최고의 지시 기준 모델을 능가합니다. 또한 다른 기준 모델이 실패하는 비디오 객체 접지 및 추론 분할에서도 뛰어난 성능을 보이며, 여러 작업이 서로 어떻게 도움이 되는지 보여주고 제로샷 다중 모달 지시 및 컨텍스트 내 비디오 편집과 같은 유망한 애플리케이션을 강조합니다.

시사점, 한계점

시사점:
다양한 지시어 기반 비디오 편집 작업을 단일 프레임워크로 통합 가능.
MLLM과 확산 모델의 결합을 통한 효과적인 지시어 이해 및 비디오 생성.
커리큘럼 학습 전략을 통한 다양한 작업 및 복잡한 지시어 처리 능력 향상.
새로운 데이터 합성 파이프라인을 통한 고품질 학습 데이터 확보.
기존 모델 대비 향상된 성능 및 다중 작업 수행 능력.
제로샷 다중 모달 지시 및 컨텍스트 내 비디오 편집 등의 새로운 응용 가능성 제시.
한계점:
제시된 한계점은 논문에서 명시적으로 언급되지 않음. 추가 연구를 통해 실제 성능 및 한계점을 더 자세히 평가할 필요가 있음. 데이터 합성 파이프라인의 한계, MLLM 및 확산 모델의 성능 한계 등이 잠재적 한계점으로 고려될 수 있음.
👍