この論文では、自己地図学習ベースの対照学習フレームワークを使用して、オーディオの小さなセグメントに固有の埋め込みを生成するConformerベースのエンコーダを学習する方法について説明します。 Conformerのローカルおよびグローバルインタラクションのキャプチャ能力を活用して、3秒のオーディオのみで埋め込みを作成しながら、オーディオ検索操作で最先端のパフォーマンスを達成します。さらに、タイムアライメントエラーやノイズ、リバーブ、極端な時間を増やすなど、他のオーディオ歪みにもほとんど影響を受けずに最先端のパフォーマンスを維持します。公的に利用可能なさまざまなサイズのデータセットを使用してトレーニングとテストを行い、コードとモデルも公開して結果の再現性を高めました。