Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Recomposer: Event-roll-guided generative audio editing

Created by
  • Haebom

作者

Daniel PW Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, John R. Hershey, Aren Jansen, R. Channing Moore, Manoj Plakal

概要

本稿では、複雑な現実世界の音響シーンを編集するためのシステムを紹介します。個々の音源が時間的に重なる複雑な音響シーンで個々の音響イベントを削除、挿入、強化する機能を提供します。テキスト編集の説明(例:「ドアの音を強める」)とイベントロールの転写から派生したイベントタイミングのグラフィック表現に基づいて動作します。 SoundStream表現を使用するエンコーダ - デコーダトランスを使用し、実際の背景に分離された音響イベントを追加して生成された合成(入力、希望の出力)オーディオサンプルペアでトレーニングされます。評価の結果、編集説明の各部分(動作、クラス、タイミング)の重要性が明らかになり、この研究は、「再構成」が重要で実用的なアプリケーションであることを示しています。

Takeaways、Limitations

Takeaways:
複雑な音響シーン内の個々の音響イベントを編集するための効果的なシステム提示。
テキストベースの編集説明とイベントタイミング情報を活用した編集可能。
SoundStream表現を活用した効率的なモデル実装
「再構成」という新しい音響編集アプリケーションの可能性を提示する。
編集説明の各要素(動作、クラス、タイミング)の重要性を実験的に検証。
Limitations:
合成データを用いた訓練による実際の世界データの一般化性能の低下の可能性
イベントロール転写の精度への依存性
さまざまな種類の音響イベントと複雑な音響シーンの一般化性能検証が必要です。
👍