Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Puppet-Master : Mise à l'échelle de la génération de vidéos interactives en tant que priorité de mouvement pour la dynamique au niveau des pièces

Created by
  • Haebom

Auteur

Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi

Contour

Puppet-Master est un générateur vidéo interactif qui capture le mouvement interne des objets, au niveau des parties, et sert de proxy pour la modélisation universelle de la dynamique des objets. À partir de l'image d'un objet et d'un ensemble de « glissements » spécifiant les trajectoires de plusieurs points de l'objet, le modèle synthétise une vidéo dans laquelle les parties de l'objet se déplacent en conséquence. Pour ce faire, nous étendons un générateur d'image-vidéo pré-entraîné pour encoder le glissement d'entrée et proposons une attention « tout-à-la-première » comme alternative à l'attention spatiale conventionnelle, atténuant les artefacts causés par le réglage fin du générateur vidéo sur des données hors domaine. Nous affinons le modèle sur Objaverse-Animation-HQ, un nouvel ensemble de données de clips de mouvement au niveau des parties, sélectionnés et obtenus par le rendu d'animations 3D synthétiques. Contrairement aux vidéos réelles, ces clips synthétiques évitent de confondre le mouvement de l'objet entier et de la caméra avec le mouvement au niveau des parties. Nous filtrons en profondeur les animations sous-optimales et enrichissons le rendu synthétique avec des glissements significatifs qui mettent en valeur la dynamique interne de l'objet. Contrairement aux autres générateurs vidéo conditionnés par le mouvement, qui déplacent principalement des objets entiers, Puppet-Master apprend à générer des mouvements partiels. Il se généralise également bien aux images réelles hors du domaine et surpasse les méthodes existantes lors des tests de performance réels, sans aucun effet de tir.

Takeaways, Limitations_

Takeaways:
Nous présentons Puppet-Master, un nouveau générateur vidéo interactif qui génère un mouvement d'objet au niveau des fragments.
Il surpasse les méthodes existantes en termes de performances zero-shot sur des benchmarks réels.
Nous proposons une technique d'attention globale qui atténue les artefacts causés par le réglage fin des données hors domaine.
Apprenez efficacement le mouvement local en exploitant des données synthétiques.
Limitations:
Il s'appuie fortement sur le jeu de données Objaverse-Animation-HQ. Une validation des performances sur différents jeux de données est requise.
La désignation précise de la « glissement » peut affecter la qualité des résultats. Des recherches supplémentaires sont nécessaires pour automatiser la désignation de ce phénomène.
ÉTant donné qu'il a été formé sur des données synthétiques, il est possible qu'il ne reflète pas pleinement la complexité et la diversité des données réelles. Des améliorations de performances supplémentaires et robustes sont nécessaires pour les données réelles.
👍