Bài báo này đề xuất Stylus, một khuôn khổ mới không cần đào tạo, thực hiện chuyển giao phong cách âm nhạc bằng cách thao tác trực tiếp lớp tự chú ý của mô hình khuếch tán tiềm ẩn (LDM) đã được đào tạo trước. Hoạt động trong miền Mel Spectrogram, Stylus chuyển giao phong cách âm nhạc bằng cách thay thế các biểu diễn khóa và giá trị của âm thanh nội dung bằng các biểu diễn của tham chiếu phong cách mà không cần bất kỳ tinh chỉnh nào. Nó tích hợp bảo toàn truy vấn, điều chỉnh tỷ lệ có hướng dẫn lấy cảm hứng từ CFG, nội suy đa phong cách và tái tạo bảo toàn pha để nâng cao chất lượng và khả năng kiểm soát phong cách. Nó cải thiện đáng kể chất lượng nhận thức và bảo toàn cấu trúc so với các công trình hiện có, đồng thời vẫn nhẹ và dễ triển khai. Nghiên cứu này làm nổi bật tiềm năng của việc thao túng sự chú ý dựa trên khuếch tán để tạo ra âm nhạc hiệu quả, độ trung thực cao và dễ diễn giải mà không cần đào tạo.