Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Explorer les compromis de conception d'adaptateur pour la génération de musique à faibles ressources

Created by
  • Haebom

Auteur

Atharva Mehta, Shivam Chauhan, Monojit Choudhury

Contour

Cet article étudie les techniques de réglage fin paramétriquement efficace (PEFT), en particulier les méthodes basées sur des adaptateurs, pour les modèles de génération musicale à grande échelle tels que MusicGen et Mustango. Nous explorons des conceptions d'adaptateurs optimales en comparant différentes configurations (architecture, disposition et taille) pour deux genres musicaux peu gourmands en ressources : la musique classique hindoustanie et la musique makam turque. Nous constatons que les adaptateurs basés sur la convolution excellent dans les détails musicaux fins, tandis que les adaptateurs basés sur des transformateurs préservent mieux les dépendances à long terme. De plus, nous constatons qu'un adaptateur de taille moyenne (40 millions de paramètres) offre un équilibre optimal entre expressivité et qualité. Mustango (un modèle basé sur la diffusion) offre une excellente diversité mais souffre d'instabilité, tandis que MusicGen (un modèle autorégressif) s'entraîne rapidement et produit des artefacts de haute qualité, mais génère des artefacts quelque peu redondants.

Takeaways, Limitations_

Takeaways:
Les adaptateurs basés sur la convolution sont efficaces pour les expressions musicales détaillées (ornements, mélodies courtes), tandis que les adaptateurs basés sur le transformateur sont efficaces pour maintenir les dépendances à long terme.
Un adaptateur de taille moyenne avec environ 40 millions de paramètres offre des performances optimales en termes d'expressivité et de qualité.
Analyse comparative des forces et des faiblesses des modèles MusicGen et Mustango pour fournir des lignes directrices pour la sélection des modèles.
Limitations:
Les genres étudiés se limitaient à la musique classique hindoustani et à la musique turque Makam.
La généralisabilité à d’autres genres musicaux à faibles ressources nécessite des études plus approfondies.
👍