Cet article se concentre sur le réglage fin paramétriquement efficace (PEFT) de modèles de génération musicale à grande échelle tels que MusicGen et Mustango. Nous explorons plus particulièrement les configurations d'adaptateur optimales pour deux genres musicaux à faibles ressources : la musique classique hindoustanie et la musique makam turque, à l'aide de techniques PEFT basées sur des adaptateurs. En expérimentant différentes architectures d'adaptateur (à convolution et à transformateur), leurs emplacements et leurs tailles, nous analysons les forces et les faiblesses de chaque architecture (les adaptateurs à convolution sont performants pour les éléments musicaux à granularité fine, tandis que les adaptateurs à transformateur sont performants pour les dépendances à long terme). Nous montrons qu'un adaptateur de taille moyenne (40 millions de paramètres) offre un équilibre optimal entre performances et efficacité. De plus, nous comparons et analysons les différences de performances entre Mustango basé sur la diffusion et MusicGen autorégressif (Mustango présente une diversité élevée mais une faible stabilité, tandis que MusicGen présente une stabilité élevée mais une diversité relativement faible), ainsi que les coûts de calcul.