Cet article aborde la personnalisation du mouvement, qui génère des vidéos avec des concepts de mouvement spécifiés par un ensemble de clips vidéo partageant le même concept, à l'aide d'un modèle de diffusion (DM). Des études antérieures ont exploré diverses méthodes de représentation et d'intégration de concepts de mouvement dans des modèles de diffusion texte-vidéo pré-entraînés à grande échelle (par exemple, l'apprentissage de LoRA de mouvement et l'utilisation de résidus de bruit latent). Cependant, ces méthodes encodent inévitablement l'apparence des vidéos de référence, ce qui affaiblit la capacité de génération d'apparence. Cet article suit l'approche courante d'apprentissage de LoRA de mouvement pour encoder les concepts de mouvement, mais propose deux stratégies innovantes : le raffinement de l'attention temporelle (TAP) et les autoroutes d'apparence (AH) pour améliorer la séparation action-apparence. Dans le TAP, nous supposons que les intégrations de valeurs pré-entraînées constituent des éléments de base suffisants pour générer de nouveaux mouvements. Nous reconstruisons ces intégrations de valeurs en reconstruisant l'attention temporelle uniquement à partir des LoRA de mouvement afin de générer de nouveaux mouvements. Dans l'AH, nous modifions le point de départ de chaque connexion de saut dans l'U-Net, de la sortie de chaque module d'attention temporelle à la sortie de chaque module d'attention spatiale. Les résultats expérimentaux montrent que la méthode proposée peut générer des vidéos avec des apparences plus cohérentes avec les descriptions textuelles et des mouvements plus cohérents avec les vidéos de référence que les études existantes.