Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

Created by
  • Haebom

저자

Shengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao

개요

본 논문은 GPT-4o-audio와 같은 엔드-투-엔드 음성 대화 모델의 대화 성능 평가에 대한 부족함을 해결하기 위해, 오디오 언어 모델 기반의 보상 피드백 모델인 WavReward를 제안합니다. WavReward는 음성 입력을 사용하여 대화 시스템의 IQ와 EQ를 모두 평가할 수 있으며, 강화 학습 알고리즘을 통해 다중 샘플 피드백을 활용하여 음성 대화 모델에 맞춘 전문 평가자를 구축합니다. 또한, WavReward의 학습을 위해 이해와 생성 측면을 모두 포함하는 선호도 데이터셋 ChatReward-30K를 소개합니다. 실험 결과, WavReward는 기존 최첨단 평가 모델보다 여러 음성 대화 시나리오에서 성능이 뛰어나며, Qwen2.5-Omni의 객관적 정확도를 55.1%에서 91.5%로 크게 향상시켰고, 주관적 A/B 테스트에서도 83%의 우위를 보였습니다.

시사점, 한계점

시사점:
음성 대화 모델의 IQ와 EQ를 모두 평가할 수 있는 새로운 평가 모델 WavReward 제안
기존 모델보다 객관적 및 주관적 평가 모두에서 우수한 성능을 보임
음성 대화 모델 평가 분야의 발전에 기여
ChatReward-30K라는 새로운 선호도 데이터셋 공개
한계점:
현재 공개된 정보만으로는 WavReward의 일반화 성능에 대한 자세한 분석이 부족함
ChatReward-30K 데이터셋의 크기와 다양성에 대한 구체적인 설명이 필요함
WavReward의 계산 비용 및 효율성에 대한 분석이 부족함
👍