Soft Clustering Anchors for Self-Supervised Speech Representation Learning in Joint Embedding Prediction Architectures

Created by

Haebom

저자

Georgios Ioannides, Adrian Kieback, Judah Goldfeder, Linsey Pang, Aman Chadha, Aaron Elkins, Yann LeCun, Ravid Shwartz-Ziv

💡 개요

본 논문은 자기 지도 학습 기반 음성 표현 학습에서 발생하는 표현 붕괴 문제를 해결하기 위해, 가우시안 혼합 모델(GMM)을 이용하여 부드러운 사후 확률을 보조 목표로 사용하는 GMM-Anchored JEPA를 제안합니다. 제안된 방법은 초기 학습 단계에서 GMM 정규화가 JEPA 목표에 점진적으로 양보하도록 하는 감소하는 지도 방식을 사용합니다. 이를 통해 HuBERT 및 WavLM과 같은 기존 방법론 대비 ASR, 감정 인식, 슬롯 필링 성능을 향상시키고 클러스터 활용도를 높이는 성과를 보였습니다.

🔑 시사점 및 한계

•

GMM 기반의 부드러운 클러스터링 앵커는 자기 지도 음성 표현 학습에서 발생하는 표현 붕괴를 효과적으로 완화합니다.

•

제안된 방법은 반복적인 재클러스터링 없이 한 번의 부드러운 할당으로 효율적인 학습이 가능하며, 음성 관련 다운스트림 작업에서 상당한 성능 향상을 가져옵니다.

•

GMM 앵커는 학습된 표현의 엔트로피를 크게 증가시켜 보다 균일한 클러스터 활용을 유도하며, 이는 표현의 다양성과 품질 향상에 기여합니다.

•

GMM 모델의 초기 학습 단계 및 감소하는 지도 스케줄의 최적화가 중요하며, 특정 음성 도메인이나 언어에 대한 일반화 성능은 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage