Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Séparer le mouvement de l'apparence : personnaliser le mouvement via la personnalisation des modèles de diffusion texte-vidéo

Created by
  • Haebom

Auteur

Huijie Liu, Jingyun Wang, Shuai Ma, Jie Hu, Xiaoming Wei, Guoliang Kang

Contour

Cet article aborde la personnalisation du mouvement, qui génère des vidéos avec des concepts de mouvement spécifiés par un ensemble de clips vidéo partageant le même concept, à l'aide d'un modèle de diffusion (DM). Des études antérieures ont exploré diverses méthodes de représentation et d'intégration de concepts de mouvement dans des modèles de diffusion texte-vidéo pré-entraînés à grande échelle (par exemple, l'apprentissage de LoRA de mouvement et l'utilisation de résidus de bruit latent). Cependant, ces méthodes encodent inévitablement l'apparence des vidéos de référence, ce qui affaiblit la capacité de génération d'apparence. Cet article suit l'approche courante d'apprentissage de LoRA de mouvement pour encoder les concepts de mouvement, mais propose deux stratégies innovantes : le raffinement de l'attention temporelle (TAP) et les autoroutes d'apparence (AH) pour améliorer la séparation action-apparence. Dans le TAP, nous supposons que les intégrations de valeurs pré-entraînées constituent des éléments de base suffisants pour générer de nouveaux mouvements. Nous reconstruisons ces intégrations de valeurs en reconstruisant l'attention temporelle uniquement à partir des LoRA de mouvement afin de générer de nouveaux mouvements. Dans l'AH, nous modifions le point de départ de chaque connexion de saut dans l'U-Net, de la sortie de chaque module d'attention temporelle à la sortie de chaque module d'attention spatiale. Les résultats expérimentaux montrent que la méthode proposée peut générer des vidéos avec des apparences plus cohérentes avec les descriptions textuelles et des mouvements plus cohérents avec les vidéos de référence que les études existantes.

Takeaways, Limitations

Takeaways: Nous démontrons que les stratégies d'affinement de l'attention temporelle (TAP) et d'autoroute d'apparence (AH) permettent une meilleure séparation action-apparence que les méthodes existantes, permettant la génération de vidéos dont l'apparence est cohérente avec les descriptions textuelles et les actions avec les vidéos de référence. Ceci contribue au développement de la personnalisation du mouvement à l'aide de modèles de diffusion.
Limitations: L'efficacité des stratégies TAP et AH peut être limitée à certains types de modèles de diffusion et d'ensembles de données. Des expériences supplémentaires sont nécessaires sur un éventail plus large de modèles de diffusion et d'ensembles de données. De plus, des évaluations des performances de généralisation pour les vidéos présentant des mouvements extrêmement complexes ou divers sont nécessaires.
👍