Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AttnMod : Nouveaux styles artistiques basés sur l'attention

Created by
  • Haebom

Auteur

Shih-Chieh Su

Contour

AttnMod est une technique sans entraînement qui module l'attention croisée dans un modèle de diffusion pré-entraîné afin de générer des styles artistiques génératifs, inédits et sans sollicitation. Elle s'inspire de la façon dont les artistes réinterprètent les images générées, par exemple en mettant en valeur des caractéristiques spécifiques, en diffusant les couleurs, en déformant les silhouettes et en spécifiant des éléments invisibles. AttnMod simule cette intention en modifiant la façon dont les sollicitations textuelles conditionnent l'image par l'attention lors de la suppression du bruit. Cette modulation ciblée permet diverses transitions de style sans modifier les sollicitations ni réentraîner le modèle, augmentant ainsi la puissance expressive de la génération de texte en image.

Takeaways, Limitations

Takeaways:
Convertissez entre différents styles sans invites ni recyclage du modèle
Améliorer l'expressivité de la génération de texte en image
Une nouvelle approche qui imite le processus humain de réinterprétation artistique.
Limitations:
Aucune mention spécifique de Limitations n'est incluse dans le résumé. Une évaluation plus approfondie des performances réelles et de la capacité de généralisation est nécessaire.
Il est nécessaire d’analyser les types de transformations de style pour lesquels AttnMod est plus efficace et ceux pour lesquels il est moins efficace.
👍