본 논문은 GPT-4o-audio와 같은 엔드-투-엔드 음성 대화 모델의 대화 성능 평가에 대한 문제점을 제기하고, 이를 해결하기 위한 새로운 평가 모델인 WavReward를 제안합니다. WavReward는 오디오 언어 모델을 기반으로 음성 대화 시스템의 IQ와 EQ를 평가할 수 있으며, 강화 학습 알고리즘을 활용하여 다중 샘플 피드백을 통해 특화된 평가자를 구축합니다. 특히, 3만 개의 선호도 데이터셋인 ChatReward-30K를 사용하여 훈련되었으며, 텍스트 기반 채팅, 음향 속성이 포함된 지시 채팅, 암시적 채팅 등 다양한 시나리오를 포함합니다. 실험 결과, WavReward는 기존 최첨단 평가 모델보다 여러 음성 대화 시나리오에서 성능이 뛰어나며, Qwen2.5-Omni의 객관적 정확도를 53.4%에서 91.5%로 크게 향상시켰고, 주관적 A/B 테스트에서도 83%의 우위를 보였습니다. ablation study를 통해 WavReward의 각 구성 요소의 필요성을 확인했습니다.
시사점, 한계점
•
시사점:
◦
음성 대화 모델의 대화 능력을 효과적으로 평가하는 새로운 방법론 제시.
◦
기존 모델보다 향상된 정확도와 신뢰도를 가진 음성 대화 모델 평가의 새로운 기준 제시.
◦
오디오 언어 모델 기반의 평가 모델을 통해 IQ와 EQ를 모두 고려한 종합적인 평가 가능.