Este artículo propone Stylus, un novedoso marco de trabajo sin entrenamiento que realiza la transferencia de estilos musicales mediante la manipulación directa de la capa de autoatención de un modelo de difusión latente (LDM) preentrenado. Operando en el dominio del espectrograma Mel, Stylus transfiere estilos musicales reemplazando las representaciones de clave y valor del contenido de audio con representaciones de referencias estilísticas sin necesidad de ajustes. Integra preservación de consultas, escalado guiado basado en CFG, interpolación multiestilo y reconstrucción con preservación de fase para mejorar la calidad y la controlabilidad del estilo. Mejora significativamente la calidad perceptual y la preservación de la estructura en comparación con trabajos anteriores, a la vez que mantiene su ligereza y facilidad de implementación. Este estudio destaca el potencial de la manipulación de la atención basada en la difusión para la generación de música eficiente, de alta fidelidad e interpretable sin entrenamiento.