본 논문은 음성 감정 인식(SER) 분야에서 어노테이션의 어려움을 해결하기 위해, GPT-4를 활용하여 멀티모달 데이터셋(MELT)을 제작하는 방법을 제시합니다. 기존의 사람에 의한 어노테이션의 비용과 주관성 문제를 해결하기 위해, 텍스트 정보만을 이용하여 GPT-4가 시트콤 'Friends' 데이터셋에 대한 감정 어노테이션을 생성하도록 했습니다. 제작된 MELT 데이터셋을 이용하여 여러 자기지도학습(SSL) 백본 모델을 미세조정하고, 음성 감정 인식 성능을 평가하여 GPT-4 기반 어노테이션의 효과를 검증하였습니다. 주관적 실험 결과 SER 성능 향상을 보였습니다.