VoiceAgentEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Voice-Agent Evaluation of Xbench's Professional-Aligned Series
Created by
Haebom
Category
Empty
저자
Pengyu Xu, Shijia Li, Ao Sun, Feng Zhang, Yahan Li, Bo Wu, Zhanyu Ma, Jiguo Li, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He, Rui Wang, Yang Liu, Xiaobo Hu, Fan Yang, Jia Zheng, Guanghua Yao
개요
본 논문은 전문가 수준의 지능형 아웃바운드 콜 시나리오에서 대규모 언어 모델(LLM)을 평가하기 위한 포괄적인 벤치마크인 OutboundEval을 제안한다. 기존 방법론의 세 가지 주요 한계점(데이터셋 다양성 및 카테고리 범위 부족, 비현실적인 사용자 시뮬레이션, 부정확한 평가 지표)을 해결하고자, OutboundEval은 구조화된 프레임워크를 통해 이를 극복한다. 6개의 주요 비즈니스 도메인과 30개의 대표적인 하위 시나리오를 포괄하는 벤치마크를 설계하고, 대규모 모델 기반의 사용자 시뮬레이터를 개발하여 현실적인 행동, 감정적 다양성, 의사소통 스타일을 가진 다양한 가상 사용자를 생성한다. 또한, 작업 변동에 적응하는 동적 평가 방법을 도입하여 자동화 및 인간 참여 평가를 통합하여 작업 실행 정확성, 전문 지식 적용, 적응성 및 사용자 경험 품질을 측정한다. 12개의 최첨단 LLM에 대한 실험을 통해 전문가 수준의 작업 완료와 상호 작용 유창성 간의 뚜렷한 상충 관계를 밝혀내고, 신뢰할 수 있고 인간과 유사한 아웃바운드 AI 시스템 구축에 대한 실질적인 통찰력을 제공한다. OutboundEval은 전문적인 애플리케이션에서 LLM을 벤치마킹하기 위한 실용적이고 확장 가능하며 도메인 중심적인 표준을 확립한다.
시사점, 한계점
•
시사점:
◦
전문가 수준의 아웃바운드 콜 시나리오에서 LLM 평가를 위한 새로운 벤치마크 OutboundEval 제시