この論文では、音声表現の自己地図学習のための新しいフレームワークであるLearn2Dissを提案します。従来のフレーム単位のマスク予測方式とは異なり、Learn2Dissはフレーム単位のエンコーダと発話単位のエンコーダを組み合わせて、音声のフレームレベルの特徴と発話レベルの特徴(話者、チャンネルの特徴など)の両方を学習します。フレーム単位のエンコーダは、既存の自己地図学習技術に基づいて擬似音素表現を、発話単位エンコーダは対照学習に基づいて擬似話者表現を学習します。両方のエンコーダは、相互情報量ベースの基準を使用して分離学習されます。様々なサブタスク評価実験により、フレーム単位のエンコーダは意味論的作業性能を、発話単位エンコーダは非意義論的な作業性能を向上させることを確認した。その結果、Learn2Dissはさまざまなタスクで最先端のパフォーマンスを達成します。