Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Pretrained Conformers for Audio Fingerprinting and Retrieval

Created by
  • Haebom

作者

Kemal Altwlkany, Elmedin Selmanovic, Sead Delalic

概要

この論文では、自己地図学習ベースの対照学習フレームワークを使用して、オーディオの小さなセグメントに固有の埋め込みを生成するConformerベースのエンコーダを学習する方法について説明します。 Conformerのローカルおよびグローバルインタラクションのキャプチャ能力を活用して、3秒のオーディオのみで埋め込みを作成しながら、オーディオ検索操作で最先端のパフォーマンスを達成します。さらに、タイムアライメントエラーやノイズ、リバーブ、極端な時間を増やすなど、他のオーディオ歪みにもほとんど影響を受けずに最先端のパフォーマンスを維持します。公的に利用可能なさまざまなサイズのデータ​​セットを使用してトレーニングとテストを行い、コードとモデルも公開して結果の再現性を高めました。

Takeaways、Limitations

Takeaways:
3秒の短いオーディオだけでも効果的な埋め込み生成が可能
タイムアライメントエラーとさまざまなオーディオ歪みに強い
オーディオ検索操作で最先端のパフォーマンスを達成
コードおよびモデル開示による結果の再現性の確保
Limitations:
具体的なLimitationsへの言及は論文の要約に明示的に示されていない。追加の分析が必要。
👍