Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Une approche sans formation pour le transfert de style musical avec des modèles de diffusion latente

Created by
  • Haebom

Auteur

Heehwan Wang, Joonwoo Kwon, Sooyoung Kim, Shinjae Yoo, Yuewei Lin, Jiook Cha

Contour

Cet article propose Stylus, un nouveau framework sans entraînement qui effectue le transfert de style musical en manipulant directement la couche d'auto-attention d'un modèle de diffusion latente (LDM) pré-entraîné. Fonctionnant dans le domaine du spectrogramme Mel, Stylus transfère les styles musicaux en remplaçant les représentations tonales et phonétiques du contenu audio par des représentations de références stylistiques sans aucun réglage fin. Il intègre la préservation des requêtes, la mise à l'échelle guidée inspirée du CFG, l'interpolation multi-styles et la reconstruction préservant la phase afin d'améliorer la qualité et la contrôlabilité du style. Il améliore significativement la qualité perceptuelle et la préservation de la structure par rapport aux travaux existants, tout en restant léger et facile à déployer. Cette étude met en évidence le potentiel de la manipulation de l'attention par diffusion pour une génération musicale efficace, haute fidélité et interprétable sans entraînement.

Takeaways, Limitations

Takeaways:
Le transfert de styles musicaux sans données de formation est possible en exploitant des modèles pré-entraînés.
Amélioration de la qualité de perception et de la préservation structurelle par rapport aux méthodes existantes
Présentation d'un framework efficace, léger et facile à déployer.
Amélioration de la qualité et du contrôle du style grâce à la préservation des requêtes, à la mise à l'échelle des conseils inspirés de CFG, et bien plus encore.
Démontrer l'utilité de la manipulation de l'attention basée sur la diffusion
Limitations:
La divulgation du code sera effectuée après l'acceptation du document.
Une évaluation plus approfondie des performances de transfert entre différents genres et styles musicaux est nécessaire.
Une analyse comparative avec d’autres modèles de génération musicale est nécessaire.
Manque d’analyse quantitative de la performance de facteurs supplémentaires, tels que la mise à l’échelle des orientations inspirées du CFG.
👍