Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings

Created by
  • Haebom
Category
Empty

저자

Jakaria Islam Emon, Md Abu Salek, Kazi Tamanna Alam

개요

Whisper 자동 음성 인식 모델의 인코더를 활용하여 다국어 화자 식별을 위한 새로운 프레임워크인 WSI (Whisper Speaker Identification)를 제안합니다. 온라인 하드 트리플릿 마이닝과 자기 지도 학습된 정규화된 온도 조절 교차 엔트로피 손실을 활용한 공동 손실 최적화 전략을 통해 강력한 화자 임베딩을 생성합니다. Whisper의 다국어 데이터로 사전 훈련된 언어 비의존적인 음향 표현을 활용하여 다양한 언어와 녹음 환경에서 화자를 효과적으로 구분합니다. VoxTube, JVS, CallHome, Voxconverse 등 다양한 말뭉치에 대한 광범위한 평가 결과, WSI는 Pyannote Embedding, ECAPA TDNN, Xvector 등 최첨단 기준 모델보다 낮은 동등 오류율과 높은 AUC 점수를 달성하여 성능 우위를 보였습니다. 이는 다국어 사전 훈련된 ASR 인코더와 공동 손실 최적화의 결합이 비영어권 언어의 화자 식별 성능을 크게 향상시킨다는 가설을 입증합니다.

시사점, 한계점

시사점:
다국어 음성 데이터에 대한 사전 훈련된 ASR 모델의 인코더를 활용하여 다국어 화자 식별 성능을 향상시킬 수 있음을 보여줍니다.
온라인 하드 트리플릿 마이닝과 자기 지도 학습된 정규화된 온도 조절 교차 엔트로피 손실을 결합한 공동 손실 최적화 전략의 효과를 확인했습니다.
기존 최첨단 모델들을 능가하는 성능을 다양한 언어와 데이터셋에서 입증했습니다.
한계점:
본 논문에서는 특정한 사전 훈련된 Whisper 모델을 사용하였으므로, 다른 ASR 모델을 사용했을 때의 성능은 추가 연구가 필요합니다.
사용된 데이터셋의 특성에 따라 성능이 달라질 수 있으므로, 더욱 다양한 데이터셋에 대한 추가적인 실험이 필요합니다.
실제 현장 환경에서의 성능 평가는 추가적으로 이루어져야 합니다.
👍