Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MELT: Towards Automated Multimodal Emotion Data Annotation by Leveraging LLM Embedded Knowledge

Created by
  • Haebom

저자

Xin Jing, Jiadong Wang, Iosif Tsangko, Andreas Triantafyllopoulos, Bjorn W. Schuller

개요

본 논문은 음성 감정 인식(SER) 분야에서 어노테이션의 어려움을 해결하기 위해, GPT-4를 활용하여 멀티모달 데이터셋(MELT)을 제작하는 방법을 제시합니다. 기존의 사람에 의한 어노테이션의 비용과 주관성 문제를 해결하기 위해, 텍스트 정보만을 이용하여 GPT-4가 시트콤 'Friends' 데이터셋에 대한 감정 어노테이션을 생성하도록 했습니다. 제작된 MELT 데이터셋을 이용하여 여러 자기지도학습(SSL) 백본 모델을 미세조정하고, 음성 감정 인식 성능을 평가하여 GPT-4 기반 어노테이션의 효과를 검증하였습니다. 주관적 실험 결과 SER 성능 향상을 보였습니다.

시사점, 한계점

시사점:
GPT-4와 같은 LLMs을 활용하여 대규모 음성 감정 데이터셋을 저렴하고 효율적으로 구축할 수 있는 가능성을 제시.
사람의 주관성에 의존하지 않는 객관적인 어노테이션 방법 제시.
생성된 MELT 데이터셋을 활용한 SER 성능 향상 확인.
한계점:
GPT-4의 성능에 의존적이며, GPT-4의 한계가 MELT 데이터셋의 질에 영향을 미칠 수 있음.
텍스트 정보만을 사용하여 어노테이션을 생성하였으므로, 음성의 뉘앙스나 비언어적 정보가 반영되지 않을 가능성.
'Friends' 시트콤 데이터에 특화된 모델이 될 가능성, 다른 데이터셋으로의 일반화 성능 검증 필요.
주관적 실험 결과만 제시되었고, 객관적인 지표를 통한 성능 비교가 부족할 수 있음.
👍