Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Interpolating Speaker Identities in Embedding Space for Data Expansion

Created by
  • Haebom

作者

Tianchi Liu, Ruijie Tao, Qiongqiong Wang, Yidi Jiang, Hardik B. Sailor, Ke Zhang, Jingru Lin, Haizhou Li

概要

本論文では、多種多様な話者データへのアクセシビリティに大きく依存する深層学習ベースの話者認証システムの制限を解決するために、既存の話者埋め込み間補間を通じて新しい話者IDを合成する新しいデータ拡張方法であるINSIDE(Interpolating Speaker Identities in Embedding Space)を提案する。 INSIDEは、事前訓練された話者埋め込み空間から近い話者埋め込みペアを選択し、球面線形補間を使用して中間埋め込みを計算します。これらの補間された埋め込みは音声合成システムに入力されて対応する音声波形を生成し、生成されたデータは元のデータセットと組み合わせてサブモデルを訓練するために使用されます。実験の結果、INSIDEで拡張されたデータで訓練されたモデルは、実際のデータでのみ訓練されたモデルよりも性能が優れており、話者認証で3.06%~5.24%の相対的な性能向上を達成しました。性別分類作業でも13.44%の相対的なパフォーマンスが向上し、他の拡張技術とも互換性があり、既存のトレーニングパイプラインに柔軟で拡張可能な追加機能として利用できます。

Takeaways、Limitations

Takeaways:
限られたデータでも、深い学習ベースの話者認証と関連タスクのパフォーマンスを向上させるための効果的なデータ拡張技術を提供します。
話者認証だけでなく、性別分類などの他の操作にも適用可能性を示します。
既存のトレーニングパイプラインに簡単に統合できる柔軟でスケーラブルな方法です。
Limitations:
補間された話者の埋め込みが実際の話者の特徴​​を完全に反映していない可能性があります。
音声合成システムのパフォーマンスによっては、生成されたデータの品質が影響を受ける可能性があります。
プライバシー問題の追加の検討が必要な場合があります。 (データ合成の過程で個人情報漏洩の可能性)
👍