Benchmarking Contextual and Paralinguistic Reasoning in Speech-LLMs: A Case Study with In-the-Wild Data
Created by
Haebom
저자
Qiongqiong Wang, Hardik Bhupendra Sailor, Tianchi Liu, Wenyu Zhang, Muhammad Huzaifah, Nattadaporn Lertcheva, Shuo Sun, Nancy F. Chen, Jinyang Wu, AiTi Aw
개요
본 논문은 음성을 이해하는 대규모 언어 모델(Speech-LLM)의 사회적, 정서적 지능에 필수적인, 음성의 비언어적 측면(paralinguistic aspect)에 대한 이해력 부족을 다룹니다. 이를 해결하기 위해, 언어적 내용과 감정, 운율과 같은 비언어적 단서를 통합하는 상황적 비언어적 추론(contextual paralinguistic reasoning) 능력을 평가하는 벤치마크인 CP-Bench를 제안합니다. CP-Bench는 언어적 및 공감적 이해 모두를 필요로 하는 두 개의 질문 답변(QA) 데이터셋으로 구성됩니다. 논문에서는 오픈소스 및 클로즈드소스 모델을 포함한 최첨단 Speech-LLM들을 평가하고, 다양한 질문 유형에 대한 종합적인 분석을 수행합니다. 상위 두 모델에 대해서는 온도 조정(temperature tuning)의 영향을 분석합니다. 결과적으로 기존 평가의 한계를 드러내고, 더욱 맥락을 인식하고 정서적으로 지능적인 음성 대응 LLM을 구축하기 위한 통찰력을 제공합니다.
시사점, 한계점
•
시사점:
◦
상황적 비언어적 추론 능력 평가를 위한 새로운 벤치마크 CP-Bench 제시
◦
최첨단 Speech-LLM들의 비언어적 이해 능력에 대한 종합적 분석 제공
◦
기존 Speech-LLM 평가의 한계점을 밝히고 개선 방향 제시
◦
온도 조정(temperature tuning)이 Speech-LLM 성능에 미치는 영향 분석
◦
더욱 맥락 인식적이고 정서적으로 지능적인 Speech-LLM 개발 위한 통찰력 제공
•
한계점:
◦
CP-Bench 데이터셋의 규모 및 다양성 제한 (구체적인 데이터셋 크기나 다양성에 대한 언급 부족)