Sign In

MULTI-Bench: A Multi-Turn Interactive Benchmark for Assessing Emotional Intelligence ability of Spoken Dialogue Models

Created by
  • Haebom
Category
Empty

저자

Yayue Deng, Guoqiang Hu, Haiyang Sun, Xiangyu Zhang, Haoyang Zhang, Fei Tian, Xuerui Yang, Gang Yu, Eng Siong Chng

개요

본 논문은 SDM(Spoken Dialogue Models)의 진정한 다중 턴 대화 능력, 특히 감성 지능에 중점을 두고 평가하는 새로운 벤치마크인 Multi-Bench를 소개합니다. Multi-Bench는 감성 이해 및 추론을 위한 기본 트랙과 감성 지원 및 적용을 위한 고급 트랙으로 구성된 계층적 구조를 가지며, 5가지 과제와 약 3.2K개의 샘플로 이루어져 있습니다. 다양한 SDM의 성능을 평가한 결과, 현재 모델들이 기본적인 이해 과제에서는 좋은 성능을 보이지만, 고급 다중 턴 대화 및 추론 관련 과제, 특히 감성 인식 및 적용에 있어서는 개선의 여지가 있음을 확인했습니다.

시사점, 한계점

시사점:
다중 턴 대화에서 감성 지능의 중요성을 강조하고, 이를 평가하기 위한 새로운 벤치마크를 제시함.
현재 SDM의 감성 이해 및 적용 능력의 한계를 명확히 보여줌.
SDM 연구 방향을 제시하고, 해당 분야의 발전을 촉진할 수 있는 기반을 마련함.
한계점:
Multi-Bench가 특정 과제와 샘플에 의존하므로, 다양한 대화 상황을 모두 포괄하지 못할 수 있음.
평가에 사용된 SDM의 종류가 제한적일 수 있음.
벤치마크의 결과가 실제 사용 환경에서의 성능을 완전히 반영하지 못할 수 있음.
👍