Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Exploring Adapter Design Tradeoffs for Low Resource Music Generation

Created by
  • Haebom

作者

Atharva Mehta, Shivam Chauhan, Monojit Choudhury

概要

この論文では、MusicGenやMustangoなどの大規模音楽生成モデルのパラメータ効率的な微調整(PEFT)技術、特にアダプタベースの方法について説明します。ヒンドゥスタンの古典音楽とトルコのマカム音楽という2つの低資源音楽ジャンルを対象に、さまざまなアダプタ構成(アーキテクチャ、配置、サイズ)を比較分析して、最適なアダプタ設計を探索します。畳み込みベースのアダプタは詳細な音楽的要素に強みを示しますが、トランスベースのアダプタは長期依存性をよりよく維持することがわかりました。また、中間サイズ(40Mパラメータ)アダプターが表現力と品質の面で最適なバランスを提供し、Mustango(拡散ベースモデル)は多様性は優れているが安定性が低下する一方、MusicGen(自己回帰モデル)は訓練速度が速く、品質は優れているがやや重複する製品を作り出すことを発見しました。

Takeaways、Limitations

Takeaways:
畳み込みベースのアダプタは、詳細な音楽表現(装飾音、短い旋律)に効果的であり、トランスベースのアダプタは長期依存性の維持に効果的であることを明らかにした。
約40Mパラメータの中型アダプタが表現力と品質の面で最適な性能を見せます。
MusicGenとMustangoモデルの強みと弱点を比較分析し、モデル選択のガイドラインを提示します。
Limitations:
研究対象のジャンルはヒンドゥスタンの古典音楽とトルコのマカム音楽に限定されています。
他の低資源音楽ジャンルの一般化の可能性は、さらなる研究が必要です。
👍