Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

LoopGen : Génération de musique en boucle sans formation

Created by
  • Haebom

Auteur

Davide Marincione, Giorgio Strano, Donato Crisostomi, Roberto Ribuoli, Emanuele Rodol et

Contour

Cet article se concentre sur la génération de boucles (courts segments audio répétés), un élément important des genres dance et électronique. Les modèles de génération existants présentent le problème de ne pas garantir des transitions fluides entre le début et la fin en générant uniquement des formes d'onde courtes, ce qui entraîne des discontinuités. Cette étude résout ce problème en modifiant un modèle non autorégressif (MAGNeT) pour générer des jetons selon un schéma cyclique, de sorte que le modèle se concentre sur le début lors de la génération de la fin. La génération de boucles naturelles n'est possible que par inférence, sans apprentissage ni données supplémentaires. Des améliorations subjectives de la qualité sont confirmées, telles qu'une amélioration de 55 % de la perplexité des jetons à la connexion de la boucle et une amélioration de 70 % de la note moyenne aux tests d'écoute. Cela démontre l'efficacité d'une approche basée sur l'inférence et les avantages d'un modèle non autorégressif.

Takeaways, Limitations

Takeaways:
Nous démontrons que la génération de musique en boucle naturelle est possible en utilisant une approche basée sur l'inférence utilisant des modèles non autorégressifs.
Résout efficacement le problème de discontinuité dans la section de connexion en boucle, contribuant à améliorer la qualité sonore.
Obtenir des améliorations de performances sans données de formation supplémentaires, suggérant la possibilité d'un apprentissage efficace du modèle.
Une nouvelle approche pour améliorer les performances des modèles génératifs est présentée.
Limitations:
Les résultats sont limités à un modèle non autorégressif spécifique (MAGNeT), et des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à d’autres modèles.
Manque d’analyse des différences de performance selon la longueur des boucles et les genres musicaux.
Basé sur les résultats de tests à échelle limitée plutôt que sur des tests d’écoute à grande échelle.
Des recherches supplémentaires sont nécessaires pour explorer son applicabilité à différents styles et complexités musicaux.
👍