VEGGIE는 다양한 사용자 지시에 기반한 비디오 개념 편집, 접지 및 추론을 통합하는 단일 엔드투엔드 프레임워크인, 지시어 기반 생성을 통한 비디오 편집기입니다. 사용자의 비디오 및 텍스트 질의를 입력받아, MLLM을 사용하여 지시어의 의도를 해석하고 비디오 컨텍스트에 접지시켜 픽셀 공간 응답을 위한 프레임별 접지된 작업 질의를 생성합니다. 그런 다음 확산 모델이 이러한 계획을 렌더링하여 사용자 의도와 일치하는 편집된 비디오를 생성합니다. 다양한 작업과 복잡한 지시어를 지원하기 위해 커리큘럼 학습 전략을 사용하며, 대규모 지시 이미지 편집 데이터를 사용하여 MLLM과 비디오 확산 모델을 정렬한 다음 고품질 다중 작업 비디오 데이터에 대해 엔드투엔드 미세 조정을 수행합니다. 또한 모델 학습을 위해 쌍으로 된 지시 비디오 편집 데이터를 생성하는 새로운 데이터 합성 파이프라인을 도입하여 이미지-비디오 모델을 활용하여 정적 이미지 데이터를 다양하고 고품질의 비디오 편집 샘플로 변환합니다. VEGGIE는 다양한 편집 기술을 사용한 지시 비디오 편집에서 강력한 성능을 보여주며, 다중 작업에 어려움을 겪는 다른 모델들과 달리 다재다능한 모델로서 최고의 지시 기준 모델을 능가합니다. 또한 다른 기준 모델이 실패하는 비디오 객체 접지 및 추론 분할에서도 뛰어난 성능을 보이며, 여러 작업이 서로 어떻게 도움이 되는지 보여주고 제로샷 다중 모드 지시 및 컨텍스트 내 비디오 편집과 같은 유망한 애플리케이션을 강조합니다.