Cet article propose Stylus, un nouveau framework sans entraînement qui effectue le transfert de style musical en manipulant directement la couche d'auto-attention d'un modèle de diffusion latente (LDM) pré-entraîné. Fonctionnant dans le domaine du spectrogramme Mel, Stylus transfère les styles musicaux en remplaçant les représentations tonales et phonétiques du contenu audio par des représentations de références stylistiques sans aucun réglage fin. Il intègre la préservation des requêtes, la mise à l'échelle guidée inspirée du CFG, l'interpolation multi-styles et la reconstruction préservant la phase afin d'améliorer la qualité et la contrôlabilité du style. Il améliore significativement la qualité perceptuelle et la préservation de la structure par rapport aux travaux existants, tout en restant léger et facile à déployer. Cette étude met en évidence le potentiel de la manipulation de l'attention par diffusion pour une génération musicale efficace, haute fidélité et interprétable sans entraînement.