Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

FreeAudio: Training-Free Timing Planning for Controllable Long-Form Text-to-Audio Generation

Created by
  • Haebom

作者

Yuxuan Jiang, Zehua Chen, Zeqian Ju, Chang Li, Weibei Dou, Jun Zhu

概要

本論文は、限られた量のソートされたオーディオテキストデータのために正確な時間制御(例えば「Owl hooted at 2.4s-5.2s」)を含む複雑なテキストプロンプト処理を困難にする従来のテキストオーディオ(T2A)生成方法の限界を解決することを提案した。従来の研究は、データ増強または時間条件をモデル入力として使用して、長さ10秒の時間制御T2Aを生成しようとしましたが、合成品質は依然として制限されていました。そこで、本論文では訓練を必要としない新しい時間制御T2AフレームワークであるFreeAudioを提示し、「owl hooted at 2.4s-5.2s and crickets chirping at 0s-24s」のように時間制御が可能な長時間T2A生成を最初に試みた。 FreeAudioはLLMを使用して重複しない時間ウィンドウを計画し、入力テキストと時間プロンプトに基づいて各ウィンドウを改善された自然言語の説明に再キャプションします。また、正確な時間制御のための分離と集約主義の制御、局所的な滑らかさのための文脈的潜在的な構成、およびグローバルな一貫性のための参照ガイドを導入しました。実験の結果、FreeAudioはトレーニングを必要としない方法の中で最先端の時間制御T2A合成品質を達成し、トレーニングベースの方法と同様の性能を示した。また、トレーニングベースのStable Audioと比較できる長時間生成品質を示し、時間制御が可能な長時間T2A合成の道を開いた。

Takeaways、Limitations

Takeaways:
トレーニングなしで高品質の時間制御T2A生成を可能にする新しいフレームワークFreeAudioの提示。
既存のトレーニングベースの方法と比較可能なレベルの長時間T2A生成品質を達成
正確な時間制御のための効果的な方法(分離および集約主義の制御、文脈的潜在的な構成、参照ガイド)の提示。
時間制御が可能な長時間T2A合成分野の発展に貢献
Limitations:
LLMのパフォーマンスに依存する可能性があります。 LLMのパフォーマンスの低下はFreeAudioのパフォーマンスに影響を与える可能性があります。
非常に長いオーディオ生成のパフォーマンス評価が不足する可能性があります。論文で言及されている24秒は比較的短い時間です。
さまざまな効果音や複雑な音声機能を含むテキストのパフォーマンス評価がさらに必要になる場合があります。
👍