Este artículo aborda la personalización del movimiento, que genera vídeos con conceptos de movimiento especificados por un conjunto de videoclips con el mismo concepto mediante un modelo de difusión (DM). Estudios previos han explorado diversos métodos para representar e integrar conceptos de movimiento en modelos de difusión de texto a vídeo preentrenados a gran escala (p. ej., aprendizaje de LoRA de movimiento y uso de residuos de ruido latente). Sin embargo, estos métodos inevitablemente codifican la apariencia de los vídeos de referencia, lo que debilita la capacidad de generación de apariencias. Este artículo sigue el enfoque común de aprendizaje de LoRA de movimiento para codificar conceptos de movimiento, pero propone dos estrategias novedosas: refinamiento de la atención temporal (TAP) y autopistas de apariencia (AH) para mejorar la separación entre acción y apariencia. En TAP, asumimos que las incrustaciones de valor preentrenadas son suficientes para generar nuevos movimientos. Reconstruimos las incrustaciones de valor reconstruyendo la atención temporal únicamente a partir de LoRA de movimiento para generar nuevos movimientos. En AH, cambiamos el punto de inicio de cada conexión de salto en la U-Net de la salida de cada módulo de atención temporal a la salida de cada módulo de atención espacial. Los resultados experimentales muestran que el método propuesto puede generar vídeos con apariencias más consistentes con las descripciones de texto y movimientos más consistentes con los vídeos de referencia que los estudios existentes.