Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉDition couleur guidée par texte sans formation avec transformateur de diffusion multimodale

Created by
  • Haebom

Auteur

Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Lei Zhang, Heung-Yeung Shum

Contour

Cet article présente ColorCtrl, une nouvelle méthode d'édition couleur textuelle d'images et de vidéos. Pour relever les défis des méthodes sans apprentissage existantes, qui peinent à contrôler précisément les couleurs et introduisent des incohérences visuelles, ColorCtrl exploite le mécanisme d'attention du transformateur de diffusion multimodal (MM-DiT). En manipulant les cartes d'attention et les jetons de valeur, ColorCtrl sépare la structure et la couleur, permettant une édition couleur précise et cohérente et un contrôle de l'intensité des attributs au niveau des mots. Il modifie uniquement les régions spécifiées par les invites, laissant intactes les régions non pertinentes, et surpasse les méthodes existantes et les modèles commerciaux (FLUX.1 Kontext Max, GPT-4o Image Generation) sur les jeux de données SD3 et FLUX.1-dev. Il est également applicable aux modèles vidéo tels que CogVideoX, améliorant notamment la cohérence temporelle et la stabilité du montage. Il est également généralisable aux modèles d'édition par diffusion basés sur des instructions tels que Step1X-Edit et FLUX.1 Kontext dev.

Takeaways, Limitations_

Takeaways:
Exploiter le mécanisme d'attention des transformateurs de diffusion multimodes pour permettre une édition de couleurs textuelle précise et cohérente.
Fournit un contrôle de la force des attributs au niveau des mots.
Modifiez uniquement la zone spécifiée dans l’invite pour minimiser l’impact des zones non liées.
Il a une applicabilité générale aux images et aux vidéos et à divers modèles de diffusion.
Il présente des performances supérieures aux méthodes sans apprentissage existantes et aux modèles commerciaux.
Améliore la cohérence temporelle et la stabilité de l'édition lors de l'édition vidéo.
Limitations:
Cet article n'aborde pas explicitement les Limitations spécifiques. Des expériences ou analyses supplémentaires sont nécessaires pour découvrir les implications pratiques potentielles (par exemple, dégradation des performances, surcharge de calcul, utilisation de la mémoire, etc.) pour des types spécifiques d'images/vidéos.
👍