この論文では、MusicGenやMustangoなどの大規模音楽生成モデルのパラメータ効率的な微調整(PEFT)技術、特にアダプタベースの方法について説明します。ヒンドゥスタンの古典音楽とトルコのマカム音楽という2つの低資源音楽ジャンルを対象に、さまざまなアダプタ構成(アーキテクチャ、配置、サイズ)を比較分析して、最適なアダプタ設計を探索します。畳み込みベースのアダプタは詳細な音楽的要素に強みを示しますが、トランスベースのアダプタは長期依存性をよりよく維持することがわかりました。また、中間サイズ(40Mパラメータ)アダプターが表現力と品質の面で最適なバランスを提供し、Mustango(拡散ベースモデル)は多様性は優れているが安定性が低下する一方、MusicGen(自己回帰モデル)は訓練速度が速く、品質は優れているがやや重複する製品を作り出すことを発見しました。