MULTI-Bench: A Multi-Turn Interactive Benchmark for Assessing Emotional Intelligence ability of Spoken Dialogue Models
Created by
Haebom
Category
Empty
저자
Yayue Deng, Guoqiang Hu, Haiyang Sun, Xiangyu Zhang, Haoyang Zhang, Fei Tian, Xuerui Yang, Gang Yu, Eng Siong Chng
개요
본 논문은 SDM(Spoken Dialogue Models)의 진정한 다중 턴 대화 능력, 특히 감성 지능에 중점을 두고 평가하는 새로운 벤치마크인 Multi-Bench를 소개합니다. Multi-Bench는 감성 이해 및 추론을 위한 기본 트랙과 감성 지원 및 적용을 위한 고급 트랙으로 구성된 계층적 구조를 가지며, 5가지 과제와 약 3.2K개의 샘플로 이루어져 있습니다. 다양한 SDM의 성능을 평가한 결과, 현재 모델들이 기본적인 이해 과제에서는 좋은 성능을 보이지만, 고급 다중 턴 대화 및 추론 관련 과제, 특히 감성 인식 및 적용에 있어서는 개선의 여지가 있음을 확인했습니다.
시사점, 한계점
•
시사점:
◦
다중 턴 대화에서 감성 지능의 중요성을 강조하고, 이를 평가하기 위한 새로운 벤치마크를 제시함.
◦
현재 SDM의 감성 이해 및 적용 능력의 한계를 명확히 보여줌.
◦
SDM 연구 방향을 제시하고, 해당 분야의 발전을 촉진할 수 있는 기반을 마련함.
•
한계점:
◦
Multi-Bench가 특정 과제와 샘플에 의존하므로, 다양한 대화 상황을 모두 포괄하지 못할 수 있음.