Cet article se concentre sur l'amélioration de la cohérence de la génération de vidéos longues, notamment la fluidité et les transitions entre les scènes. Pour améliorer la cohérence et la cohésion de la génération vidéo utilisant une ou plusieurs invites, nous proposons un algorithme de repondération temporelle de l'attention (TiARA) basé sur la transformée de Fourier discrète à court terme (DSFT). TiARA améliore la cohérence inter-images en modifiant la matrice des scores d'attention par une analyse fréquentielle. De plus, nous identifions des facteurs importants tels que l'alignement des invites pour les vidéos générées avec plusieurs invites et proposons PromptBlend, un pipeline avancé d'interpolation d'invites qui aligne systématiquement les invites. Les résultats expérimentaux confirment l'efficacité de la méthode proposée, montrant des améliorations de performance constantes et significatives par rapport à plusieurs modèles de référence.