Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ATI: Any Trajectory Instruction for Controllable Video Generation

Created by
  • Haebom

저자

Angtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma

개요

본 논문은 사용자 정의 궤적을 기반으로 카메라 움직임, 객체 수준의 이동, 그리고 세밀한 지역적 움직임을 통합하는 비디오 생성을 위한 통합 모션 제어 프레임워크를 제안합니다. 기존의 방법들이 각 모션 유형을 별도의 모듈이나 특정 작업 설계를 통해 처리하는 것과 달리, 본 연구는 경량의 모션 인젝터를 통해 사용자 정의 궤적을 사전 훈련된 이미지-비디오 생성 모델의 잠재 공간에 투영하는 일관된 솔루션을 제공합니다. 사용자는 주요 지점과 그 움직임 경로를 지정하여 국지적 변형, 전체 객체의 움직임, 가상 카메라 역학 또는 이들의 조합을 제어할 수 있습니다. 주입된 궤적 신호는 생성 과정을 안내하여 시간적으로 일관되고 의미적으로 정렬된 모션 시퀀스를 생성합니다. 본 프레임워크는 스타일리쉬한 모션 효과(예: 모션 브러시), 동적인 시점 변경, 정밀한 지역적 모션 조작 등 여러 비디오 모션 제어 작업에서 우수한 성능을 보여줍니다. 실험 결과, 본 방법은 기존 접근 방식과 상용 솔루션에 비해 훨씬 더 나은 제어 성능과 시각적 품질을 제공하는 동시에 다양한 최첨단 비디오 생성 백본과 광범위하게 호환됨을 보여줍니다.

시사점, 한계점

시사점:
사용자 정의 궤적 기반의 통합된 비디오 모션 제어 프레임워크 제시
다양한 최첨단 비디오 생성 백본과의 호환성
기존 방법 및 상용 솔루션 대비 향상된 제어 성능 및 시각적 품질
스타일리쉬한 모션 효과, 동적인 시점 변경, 정밀한 지역적 모션 조작 등 다양한 작업 지원
한계점:
논문에서 구체적인 한계점이 명시적으로 언급되지 않음. 추가적인 실험 및 분석을 통해 한계점을 밝힐 필요가 있음.
특정 유형의 복잡한 모션이나 고해상도 비디오 생성에 대한 성능 제한 가능성.
사용자 궤적 설계의 복잡성 및 사용자 친화적인 인터페이스 개발 필요성.
👍