Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline

Created by
  • Haebom

作者

Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak

概要

本論文は、マルチスピーカー音声ミックスから特定の話者の音声を分離する目標音声抽出(TSE)の問題を扱います。従来のTSE法は、高い認識品質を提供する判別モデルを主に使用していますが、人工物の発生、自然さの低下、訓練、テスト環境間の不一致に対する感度などの問題があります。一方、生成モデルには認識品質と明瞭度が低いという欠点がある。この論文では、圧縮、抽出、再構成、および修正プロセスを統合した新しいカスケード生成パイプラインであるSoloSpeechを提案します。 SoloSpeechは、話者の埋め込みを使用せず、キューオーディオの潜在空間から条件情報を活用して、混合オーディオの潜在空間と整列させることで不整合を防ぎます。 Libri2Mixデータセットで評価した結果、SoloSpeechは従来の最高性能を上回る明瞭度と品質を達成し、ドメイン外のデータや実際の環境でも優れた一般化性能を示しました。

Takeaways、Limitations

Takeaways:
話者の埋め込みなしで高い性能を達成する新しいTSE法の提示
既存の方法のLimitationsである人工物の発生、自然さの低下、ドメイン適応問題の改善。
Libri2Mixデータセットで新しい最高性能を達成。
ドメイン外のデータと実環境での優れた一般化パフォーマンスの確認
Limitations:
SoloSpeechの計算コストと複雑さの分析不足
様々な雑音環境に対するロバストネス評価の欠如
実際の環境データセット以外の追加データセットの評価不足。
👍