Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions

Created by
  • Haebom

저자

Jun Zhan, Mingyang Han, Yuxuan Xie, Chen Wang, Dong Zhang, Kexin Huang, Haoxiang Shi, DongXiao Wang, Tengtao Song, Qinyuan Cheng, Shimin Li, Jun Song, Xipeng Qiu, Bo Zheng

개요

본 논문은 음성 언어 모델(SLM)의 화자 스타일 적응 능력에 대한 연구를 제시합니다. 기존 SLM 연구가 주로 의미 정확도와 지시사항 따르기에 집중된 반면, 본 논문은 음성 지시어에 따라 음색, 운율, 페르소나 등 화자 스타일을 변경하는 능력에 초점을 맞춥니다. 이를 위해 음향 속성, 자연어 지시, 역할극, 암묵적 공감 등 네 가지 범주를 포함하는 이중 언어(중국어 및 영어) 벤치마크 VStyle을 제시하고, 텍스트 충실도, 스타일 준수, 자연스러움을 평가하는 LALM (Large Audio Language Model as a Judge) 프레임워크를 도입합니다. 실험 결과, 현재 모델들은 제어 가능한 스타일 적응에 명확한 한계를 보이며, VStyle 데이터셋과 평가 도구를 공개하여 관련 연구를 촉진하고자 합니다.

시사점, 한계점

시사점:
음성 지시어에 따른 화자 스타일 적응이라는 새로운 과제(VSA)를 제시하고, 이를 위한 이중 언어 벤치마크 VStyle을 개발했습니다.
LALM 기반의 객관적이고 재현 가능한 평가 프레임워크를 제공합니다.
현재 SLM의 화자 스타일 제어 능력의 한계를 밝히고, 향후 연구 방향을 제시합니다.
VStyle 데이터셋과 코드를 공개하여 연구 공동체에 기여합니다.
한계점:
현재 SLM 모델이 음성 스타일 제어에 어려움을 겪는다는 점을 보여주지만, 그 원인에 대한 심층적인 분석은 부족합니다.
VStyle 벤치마크의 범위가 제한적일 수 있으며, 더 다양한 스타일과 언어를 포함하는 확장이 필요할 수 있습니다.
LALM 기반 평가의 객관성과 신뢰성에 대한 추가적인 검증이 필요할 수 있습니다.
👍