Sign In

MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

Created by
  • Haebom
Category
Empty

저자

Aaron Scott, Maike Zufle, Jan Niehues

개요

본 논문은 독일어 기반의 멀티모달 풍자 감지 데이터셋인 MuSaG를 소개한다. 이 데이터셋은 33분 분량의 독일 TV 프로그램에서 수집된 발언들로 구성되며, 텍스트, 오디오, 비디오 모달리티를 포함한다. 인간이 각각의 모달리티에 대해 별도로 주석을 달았으며, 단일 모달리티 및 멀티모달 환경에서의 평가가 가능하다. 텍스트, 오디오, 비전, 멀티모달 아키텍처를 아우르는 9개의 오픈 소스 및 상용 모델을 벤치마킹하여 인간의 주석과 비교했다.

시사점, 한계점

시사점:
독일어 멀티모달 풍자 감지 연구를 위한 새로운 데이터셋 제공.
다양한 모델의 성능을 비교 분석하여 벤치마크 제공.
인간과 모델 간의 성능 차이를 확인하여 향후 연구 방향 제시.
현실적인 상황에 더 적합한 모델 개발을 위한 동기 부여.
한계점:
현재 멀티모달 모델의 성능 격차 존재.
인간은 오디오에 많이 의존하지만, 모델은 텍스트에 더 강함.
데이터셋의 특성상 특정 TV 프로그램에 국한될 수 있음.
👍