本論文は、テキスト-音楽生成の分野で2つの主要なモデリングパラダイムである自動レコーディングデコーディングとconditional flow-matchingを体系的に比較分析した研究です。同じデータセット、学習設定、類似の基本アーキテクチャを使用して両方のパラダイムのモデルを最初から学習し、生成品質、推論設定の堅牢性、スケーラビリティ、テキストとタイムアライメント条件の遵守、オーディオインペインティングによる編集機能など、さまざまな点でパフォーマンスを評価しました。これにより、各パラダイムの長所と短所との間のトレードオフと、将来のテキスト - 音楽生成システムの設計と学習についての実用的な洞察が得られます。