[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Towards the Next Frontier in Speech Representation Learning Using Disentanglement

Created by
  • Haebom

作者

Varun Krishna, Sriram Ganapathy

概要

この論文では、音声表現の自己地図学習のための新しいフレームワークであるLearn2Dissを提案します。従来のフレーム単位のマスク予測方式とは異なり、Learn2Dissはフレーム単位のエンコーダと発話単位のエンコーダを組み合わせて、音声のフレームレベルの特徴と発話レベルの特徴(話者、チャンネルの特徴など)の両方を学習します。フレーム単位のエンコーダは、既存の自己地図学習技術に基づいて擬似音素表現を、発話単位エンコーダは対照学習に基づいて擬似話者表現を学習します。両方のエンコーダは、相互情報量ベースの基準を使用して分離学習されます。様々なサブタスク評価実験により、フレーム単位のエンコーダは意味論的作業性能を、発話単位エンコーダは非意義論的な作業性能を向上させることを確認した。その結果、Learn2Dissはさまざまなタスクで最先端のパフォーマンスを達成します。

Takeaways、Limitations

Takeaways:
フレーム単位と発話単位情報を同時に考慮し、音声表現学習の性能を向上させました。
意味論的および非意味論的な作業の両方で最先端のパフォーマンスを達成しました。
相互情報量ベースの基準を用いたエンコーダ分離学習が有効であることを示した。
Limitations:
相互情報量ベースの基準の最適化プロセスの詳細な分析が不足する可能性があります。
さまざまな音声データセットの一般化パフォーマンスに関する追加の研究が必要です。
特定のサブタスクに対するパフォーマンスの向上の程度は、他のタスクと比較して比較的少ない可能性があります。
👍