본 논문은 음성 표현의 자기 지도 학습을 위한 새로운 프레임워크인 Learn2Diss를 제안합니다. 기존의 프레임 단위 마스크 예측 방식과 달리, Learn2Diss는 프레임 단위 인코더와 발화 단위 인코더를 결합하여 음성의 프레임 수준 특징과 발화 수준 특징(화자, 채널 특징 등)을 모두 학습합니다. 프레임 단위 인코더는 기존 자기 지도 학습 기법을 기반으로 의사 음소 표현을, 발화 단위 인코더는 대조 학습을 기반으로 의사 화자 표현을 학습합니다. 두 인코더는 상호 정보량 기반 기준을 사용하여 분리 학습됩니다. 다양한 하위 작업 평가 실험을 통해, 프레임 단위 인코더는 의미론적 작업 성능을, 발화 단위 인코더는 비의미론적 작업 성능을 향상시키는 것을 확인했습니다. 결과적으로 Learn2Diss는 다양한 작업에서 최첨단 성능을 달성합니다.