Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics

Created by
  • Haebom

저자

Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi

개요

Puppet-Master는 물체의 내부 부분 수준의 움직임을 포착하여 보편적인 물체 역학 모델링을 위한 프록시 역할을 하는 대화형 비디오 생성기입니다. 물체의 이미지와 물체의 몇몇 지점의 궤적을 지정하는 "드래그(drags)" 집합이 주어지면, 모델은 물체의 부분들이 그에 따라 움직이는 비디오를 합성합니다. 이를 위해 사전 훈련된 이미지-비디오 생성기를 확장하여 입력 드래그를 인코딩하고, 영역 외 데이터에 대한 비디오 생성기의 미세 조정으로 인한 인공물을 완화하는 기존의 공간적 어텐션에 대한 대안으로 all-to-first 어텐션을 제안합니다. 합성 3D 애니메이션을 렌더링하여 얻은 큐레이션된 부분 수준 모션 클립의 새로운 데이터셋인 Objaverse-Animation-HQ에서 미세 조정됩니다. 이 합성 클립은 실제 비디오와 달리 전체 물체 및 카메라 움직임과 부분 수준의 움직임을 혼동하지 않습니다. 최적이 아닌 애니메이션을 광범위하게 필터링하고, 물체의 내부 역학을 강조하는 의미있는 드래그로 합성 렌더링을 증강합니다. Puppet-Master는 주로 물체 전체를 움직이는 다른 모션 조건 비디오 생성기와 달리 부분 수준의 움직임을 생성하는 것을 학습합니다. 또한 영역 외 실제 이미지에 대해 일반화가 잘 되며, 제로샷 방식으로 실제 세계 벤치마크에서 기존 방법보다 성능이 우수합니다.

시사점, 한계점

시사점:
부분 수준의 물체 움직임을 생성하는 새로운 대화형 비디오 생성기 Puppet-Master를 제시합니다.
기존 방법보다 실제 세계 벤치마크에서 제로샷 성능이 우수합니다.
영역 외 데이터에 대한 미세 조정으로 인한 인공물을 완화하는 all-to-first 어텐션 기법을 제안합니다.
합성 데이터를 활용하여 부분 수준의 움직임에 대한 학습을 효과적으로 수행합니다.
한계점:
Objaverse-Animation-HQ 데이터셋에 대한 의존성이 높습니다. 다양한 데이터셋에서의 성능 검증이 필요합니다.
"드래그"의 정확한 지정이 결과 품질에 영향을 미칠 수 있습니다. 드래그 지정의 자동화에 대한 추가 연구가 필요합니다.
합성 데이터로 훈련되었기 때문에, 실제 세계 데이터의 복잡성과 다양성을 완벽하게 반영하지 못할 수 있습니다. 실제 데이터에 대한 더욱 강건한 성능 향상이 필요합니다.
👍