Whisper 자동 음성 인식 모델의 인코더를 활용하여 다국어 화자 식별을 위한 새로운 프레임워크인 WSI (Whisper Speaker Identification)를 제안합니다. 온라인 하드 트리플릿 마이닝과 자기 지도 학습된 정규화된 온도 조절 교차 엔트로피 손실을 활용한 공동 손실 최적화 전략을 통해 강력한 화자 임베딩을 생성합니다. Whisper의 다국어 데이터로 사전 훈련된 언어 비의존적인 음향 표현을 활용하여 다양한 언어와 녹음 환경에서 화자를 효과적으로 구분합니다. VoxTube, JVS, CallHome, Voxconverse 등 다양한 말뭉치에 대한 광범위한 평가 결과, WSI는 Pyannote Embedding, ECAPA TDNN, Xvector 등 최첨단 기준 모델보다 낮은 동등 오류율과 높은 AUC 점수를 달성하여 성능 우위를 보였습니다. 이는 다국어 사전 훈련된 ASR 인코더와 공동 손실 최적화의 결합이 비영어권 언어의 화자 식별 성능을 크게 향상시킨다는 가설을 입증합니다.