본 논문은 GPT-4o-audio와 같은 엔드-투-엔드 음성 대화 모델의 대화 성능 평가에 대한 부족함을 해결하기 위해, 오디오 언어 모델 기반의 보상 피드백 모델인 WavReward를 제안합니다. WavReward는 음성 입력을 사용하여 대화 시스템의 IQ와 EQ를 모두 평가할 수 있으며, 강화 학습 알고리즘을 통해 다중 샘플 피드백을 활용하여 음성 대화 모델에 맞춘 전문 평가자를 구축합니다. 또한, WavReward의 학습을 위해 이해와 생성 측면을 모두 포함하는 선호도 데이터셋 ChatReward-30K를 소개합니다. 실험 결과, WavReward는 기존 최첨단 평가 모델보다 여러 음성 대화 시나리오에서 성능이 뛰어나며, Qwen2.5-Omni의 객관적 정확도를 55.1%에서 91.5%로 크게 향상시켰고, 주관적 A/B 테스트에서도 83%의 우위를 보였습니다.
시사점, 한계점
•
시사점:
◦
음성 대화 모델의 IQ와 EQ를 모두 평가할 수 있는 새로운 평가 모델 WavReward 제안