AttnMod est une technique sans entraînement qui module l'attention croisée dans un modèle de diffusion pré-entraîné afin de générer des styles artistiques génératifs, inédits et sans sollicitation. Elle s'inspire de la façon dont les artistes réinterprètent les images générées, par exemple en mettant en valeur des caractéristiques spécifiques, en diffusant les couleurs, en déformant les silhouettes et en spécifiant des éléments invisibles. AttnMod simule cette intention en modifiant la façon dont les sollicitations textuelles conditionnent l'image par l'attention lors de la suppression du bruit. Cette modulation ciblée permet diverses transitions de style sans modifier les sollicitations ni réentraîner le modèle, augmentant ainsi la puissance expressive de la génération de texte en image.