この論文は、MusicGenやMustangoなどの大規模な音楽生成モデルのパラメータ効率的な微調整(PEFT)に焦点を当てています。具体的には、アダプタベースのPEFT技術を使用して、ヒンドゥスタンの古典音楽とトルコのマカム音楽の2つの低資源音楽ジャンルの最適なアダプタ構成を探索します。さまざまなアダプタアーキテクチャ(コンボリューションベース、トランスフォーマベース)、配置位置、サイズを実験し、各アーキテクチャの強みと弱点(コンボリューションベースアダプタは詳細な音楽的要素に強み、トランスベースアダプタは長期依存性に強み)を分析し、中間サイズ(40Mパラメータ)アダプタが性能と効率性の面で最適なバランス。また、拡散ベースモデルであるMustangoと自己回帰モデルであるMusicGenの性能差(Mustangoは多様性は高いが安定性は低く、MusicGenは安定性は高いが多様性はやや低い)と計算コスト面での差を比較分析します。