Cet article présente ColorCtrl, une nouvelle méthode d'édition couleur textuelle d'images et de vidéos. Pour relever les défis des méthodes sans apprentissage existantes, qui peinent à contrôler précisément les couleurs et introduisent des incohérences visuelles, ColorCtrl exploite le mécanisme d'attention du transformateur de diffusion multimodal (MM-DiT). En manipulant les cartes d'attention et les jetons de valeur, ColorCtrl sépare la structure et la couleur, permettant une édition couleur précise et cohérente et un contrôle de l'intensité des attributs au niveau des mots. Il modifie uniquement les régions spécifiées par les invites, laissant intactes les régions non pertinentes, et surpasse les méthodes existantes et les modèles commerciaux (FLUX.1 Kontext Max, GPT-4o Image Generation) sur les jeux de données SD3 et FLUX.1-dev. Il est également applicable aux modèles vidéo tels que CogVideoX, améliorant notamment la cohérence temporelle et la stabilité du montage. Il est également généralisable aux modèles d'édition par diffusion basés sur des instructions tels que Step1X-Edit et FLUX.1 Kontext dev.