Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese

Created by
  • Haebom

저자

Xihuai Wang, Ziyi Zhao, Siyu Ren, Shao Zhang, Song Li, Xiaoyu Li, Ziwen Wang, Lin Qiu, Guanglu Wan, Xuezhi Cao, Xunliang Cai, Weinan Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 발전으로 인해 향상된 음성합성(TTS) 시스템의 평가 방식 개선에 초점을 맞추고 있습니다. 기존의 평균 의견 점수(MOS) 기반 평가 방식의 주관성, 환경적 일관성 부족, 해석의 어려움 등의 문제점을 지적하며, 새로운 다차원 중국어 음성 데이터셋 ATT-Corpus와 튜링 테스트 방식의 간단한 평가 프로토콜인 Audio Turing Test (ATT)를 제안합니다. ATT는 평가자들에게 음성이 인간의 목소리처럼 들리는지 판단하게 함으로써 평가 편향을 줄이고 견고성을 높입니다. 또한, 빠른 모델 개발을 위해 인간 판단 데이터로 Qwen2-Audio-Instruct를 미세 조정하여 자동 평가 시스템 Auto-ATT를 개발하였습니다. 실험 결과 ATT는 다차원 설계를 통해 모델의 특정 능력 차이를 효과적으로 구분하고, Auto-ATT는 인간 평가와 높은 일치율을 보임을 확인했습니다. ATT-Corpus와 Auto-ATT는 Hugging Face에 공개되었습니다.

시사점, 한계점

시사점:
기존 MOS 기반 TTS 평가의 한계를 극복하는 새로운 평가 방식 제시 (ATT).
다차원 설계의 중국어 음성 데이터셋 ATT-Corpus 제공.
자동 평가 시스템 Auto-ATT 개발 및 인간 평가와의 높은 일치율 확인.
빠르고 신뢰할 수 있는 TTS 모델 평가 도구 제공.
오픈소스로 공개되어 연구 및 개발에 기여.
한계점:
현재는 중국어 음성에 특화되어 다른 언어에 대한 일반화 가능성은 추가 연구 필요.
ATT-Corpus의 규모 및 다양성 확장 가능성 연구 필요.
Auto-ATT의 성능은 ATT-Corpus에 의존적이며, 다른 데이터셋에 대한 일반화 성능 검증 필요.
튜링 테스트 방식의 본질적인 한계 (완벽한 인간 수준의 음성 합성을 구현하는 모델을 판별하는 데 어려움) 존재.
👍