Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Explorer les compromis de conception d'adaptateur pour la génération de musique à faibles ressources

Created by
  • Haebom

Auteur

Atharva Mehta, Shivam Chauhan, Monojit Choudhury

Contour

Cet article se concentre sur le réglage fin paramétriquement efficace (PEFT) de modèles de génération musicale à grande échelle tels que MusicGen et Mustango. Nous explorons plus particulièrement les configurations d'adaptateur optimales pour deux genres musicaux à faibles ressources : la musique classique hindoustanie et la musique makam turque, à l'aide de techniques PEFT basées sur des adaptateurs. En expérimentant différentes architectures d'adaptateur (à convolution et à transformateur), leurs emplacements et leurs tailles, nous analysons les forces et les faiblesses de chaque architecture (les adaptateurs à convolution sont performants pour les éléments musicaux à granularité fine, tandis que les adaptateurs à transformateur sont performants pour les dépendances à long terme). Nous montrons qu'un adaptateur de taille moyenne (40 millions de paramètres) offre un équilibre optimal entre performances et efficacité. De plus, nous comparons et analysons les différences de performances entre Mustango basé sur la diffusion et MusicGen autorégressif (Mustango présente une diversité élevée mais une faible stabilité, tandis que MusicGen présente une stabilité élevée mais une diversité relativement faible), ainsi que les coûts de calcul.

Takeaways, Limitations_

Takeaways:
Les adaptateurs basés sur la convolution sont efficaces pour exprimer des éléments musicaux détaillés (ornements, mélodies courtes).
Les adaptateurs basés sur des transformateurs sont efficaces pour maintenir les dépendances à long terme (improvisation structurée).
L'adaptateur de taille moyenne (paramètres 40M) offre l'équilibre optimal entre performances et efficacité.
MusicGen (un modèle autorégressif) s'entraîne plus rapidement et plus efficacement que Mustango (un modèle basé sur la diffusion) et produit une sortie de meilleure qualité, mais peut produire des artefacts quelque peu redondants.
Le Mustango produit une variété de sorties, mais manque de stabilité des notes, d'alignement rythmique et d'esthétique.
Limitations:
Les genres étudiés se limitaient à la musique classique hindoustani et à la musique turque Makam.
Des recherches supplémentaires sont nécessaires sur un plus large éventail de genres et de modèles musicaux.
Il ne fournit pas de principes généraux pour optimiser la conception des adaptateurs.
👍