Puppet-Master는 물체의 내부 부분 수준의 움직임을 포착하여 보편적인 물체 역학 모델링을 위한 프록시 역할을 하는 대화형 비디오 생성기입니다. 물체의 이미지와 물체의 몇몇 지점의 궤적을 지정하는 "드래그(drags)" 집합이 주어지면, 모델은 물체의 부분들이 그에 따라 움직이는 비디오를 합성합니다. 이를 위해 사전 훈련된 이미지-비디오 생성기를 확장하여 입력 드래그를 인코딩하고, 영역 외 데이터에 대한 비디오 생성기의 미세 조정으로 인한 인공물을 완화하는 기존의 공간적 어텐션에 대한 대안으로 all-to-first 어텐션을 제안합니다. 합성 3D 애니메이션을 렌더링하여 얻은 큐레이션된 부분 수준 모션 클립의 새로운 데이터셋인 Objaverse-Animation-HQ에서 미세 조정됩니다. 이 합성 클립은 실제 비디오와 달리 전체 물체 및 카메라 움직임과 부분 수준의 움직임을 혼동하지 않습니다. 최적이 아닌 애니메이션을 광범위하게 필터링하고, 물체의 내부 역학을 강조하는 의미있는 드래그로 합성 렌더링을 증강합니다. Puppet-Master는 주로 물체 전체를 움직이는 다른 모션 조건 비디오 생성기와 달리 부분 수준의 움직임을 생성하는 것을 학습합니다. 또한 영역 외 실제 이미지에 대해 일반화가 잘 되며, 제로샷 방식으로 실제 세계 벤치마크에서 기존 방법보다 성능이 우수합니다.