본 논문은 다국어 음성 감정 인식에서 제로샷 학습의 어려움을 해결하기 위해 대조 학습과 대규모 언어 모델을 활용하는 새로운 방법을 제안합니다. 특히, 음성 신호와 언어적 특징을 감정 공간에서 정렬하는 2단계 학습 프레임워크를 통해 감정 인식과 언어에 무관한 음성 표현을 모두 포착합니다. 또한, 연구 발전을 위해 대규모 합성 다국어 음성 감정 데이터셋 M5SER을 소개합니다. 실험 결과 제안된 방법이 음성 감정 인식과 제로샷 다국어 음성 감정 인식 모두에서 효과적임을 보여줍니다.