Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries

Created by
  • Haebom

作者

Pengfei Cai, Yan Song, Qing Gu, Nan Jiang, Haoyu Song, Ian McLoughlin

概要

本論文は、既存の閉鎖集合仮定に従う音響イベント感知(SED)アルゴリズムの限界を克服するために、クエリベースのオープンな語彙SEDのための検出可能なサウンドモデル(DASM)を提案する。 DASMは、テキストまたはオーディオプロンプトから派生したクエリベクトルとオーディオ機能を一致させるフレームレベルの検索操作でSEDを定式化します。 DASMは、イベント認識と時間的位置特定を分離するデュアルストリームデコーダとセマンティック関係を利用する推論時間アテンションマスキング戦略を導入し、オープンな語彙環境での一般化性能を向上させます。 AudioSet StrongデータセットとDESEDデータセットでの実験により、DASMは位置精度と新しいクラスの一般化とのバランスを効果的に維持し、既存の方法を上回る性能を示しました。

Takeaways、Limitations

Takeaways:
オープンな語彙SEDのための新しいフレームワーク提案:マルチモードクエリベースのDASM。
デュアルストリームデコーダによるイベント認識と時間的位置特定の分離
推論時間アテンションマスキング戦略による新しいクラスの一般化性能の向上
AudioSet StrongおよびDESEDデータセットで従来の方法と比較して優れたパフォーマンスを実現
Limitations:
論文で具体的なLimitations記載されていません。 (追加研究が必要)
👍