Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

PESTO: Real-Time Pitch Estimation with Self-supervised Transposition-equivariant Objective

Created by
  • Haebom

作者

Alain Riou, Bernardo Torres, Ben Hayes, Stefan Lattner, Ga etan Hadjeres, Ga el Richard, Geoffroy Peeters

概要

PESTOは、Siameseアーキテクチャを使用して、単一ピッチ推定のための自己地図学習アプローチを提示します。 Variable-$Q$ Transform (VQT) の個々のフレームを処理し、ピッチ分布を予測します。 Toeplitzは完全に接続された層を介して変換に等変性があるように設計されています。 VQTフレームを変換し、切り抜きを介してピッチシフトペアを構成し、注釈付きデータなしで新しいクラスベースの前置等変性目的関数でモデルを学習します。このアーキテクチャと学習目標のおかげで、非常に軽量なモデルであるにもかかわらず、優れたパフォーマンスを発揮します。音楽および音声データセット(MIR-1K、MDB-stem-synth、PTDB)の評価は、自己地図学習ベースラインを上回るだけでなく、地図学習方法と競合し、データセット間の一般化において優れています。キャッシュされた畳み込みを使用してストリーミング可能なVQT実装を開発し、PESTOの実用性を向上させました。モデルの低遅延(10ms未満)および最小限のパラメータ数と組み合わせて、リアルタイムアプリケーションに特に適しています。

Takeaways、Limitations

自己地図学習による単一ピ​​ッチ推定における優れた性能達成
軽いモデル(130kパラメータ)で効率を強調。
さまざまなデータセットで優れた一般化能力を実証
リアルタイムアプリケーションに適した低遅延時間とストリーミング可能なVQT実装。
論文自体内でLimitationsは指定されていません。
👍