Puppet-Master est un générateur vidéo interactif qui capture le mouvement interne des objets, au niveau des parties, et sert de proxy pour la modélisation universelle de la dynamique des objets. À partir de l'image d'un objet et d'un ensemble de « glissements » spécifiant les trajectoires de plusieurs points de l'objet, le modèle synthétise une vidéo dans laquelle les parties de l'objet se déplacent en conséquence. Pour ce faire, nous étendons un générateur d'image-vidéo pré-entraîné pour encoder le glissement d'entrée et proposons une attention « tout-à-la-première » comme alternative à l'attention spatiale conventionnelle, atténuant les artefacts causés par le réglage fin du générateur vidéo sur des données hors domaine. Nous affinons le modèle sur Objaverse-Animation-HQ, un nouvel ensemble de données de clips de mouvement au niveau des parties, sélectionnés et obtenus par le rendu d'animations 3D synthétiques. Contrairement aux vidéos réelles, ces clips synthétiques évitent de confondre le mouvement de l'objet entier et de la caméra avec le mouvement au niveau des parties. Nous filtrons en profondeur les animations sous-optimales et enrichissons le rendu synthétique avec des glissements significatifs qui mettent en valeur la dynamique interne de l'objet. Contrairement aux autres générateurs vidéo conditionnés par le mouvement, qui déplacent principalement des objets entiers, Puppet-Master apprend à générer des mouvements partiels. Il se généralise également bien aux images réelles hors du domaine et surpasse les méthodes existantes lors des tests de performance réels, sans aucun effet de tir.