Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions

Created by
  • Haebom

저자

Siyin Wang, Wenyi Yu, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Lu Lu, Yu Tsao, Junichi Yamagishi, Yuxuan Wang, Chao Zhang

개요

본 논문은 기존의 수치적 점수 매기기 방식보다 풍부하고 세분화된 통찰력을 제공하는 자연어 설명을 활용하여 음성 품질 평가에 대한 새로운 관점을 제시합니다. 자연어 피드백은 교육적인 권장 사항과 상세한 평가를 제공하지만, 기존 데이터셋은 이러한 접근 방식에 필요한 포괄적인 주석이 부족합니다. 이러한 간극을 해소하기 위해, 논문에서는 11가지 주요 측면과 추론 및 상황적 통찰력을 포함하는 자세한 자연어 코멘트를 포함하는 포괄적인 저수준 음성 품질 평가 데이터셋인 QualiSpeech를 제시합니다. 또한, 청각 대규모 언어 모델(LLM)의 저수준 음성 이해 능력을 평가하기 위한 QualiSpeech 벤치마크를 제안합니다. 실험 결과는 미세 조정된 청각 LLM이 잡음과 왜곡에 대한 자세한 설명을 신뢰할 수 있게 생성하고, 그 유형과 시간적 특성을 효과적으로 식별할 수 있음을 보여줍니다. 또한, 결과는 추론을 통합하여 품질 평가의 정확성과 신뢰성을 높일 수 있는 잠재력을 강조합니다. 데이터셋은 https://huggingface.co/datasets/tsinghua-ee/QualiSpeech 에서 공개될 예정입니다.

시사점, 한계점

시사점:
자연어 기반 음성 품질 평가의 새로운 가능성 제시
11가지 주요 측면과 자세한 자연어 코멘트를 포함하는 QualiSpeech 데이터셋 공개
청각 LLM의 저수준 음성 이해 능력 평가를 위한 QualiSpeech 벤치마크 제안
미세 조정된 청각 LLM을 활용한 잡음 및 왜곡 유형 및 시간적 특성 효과적 식별
추론 통합을 통한 음성 품질 평가 정확성 및 신뢰성 향상 가능성 제시
한계점:
데이터셋의 규모 및 다양성에 대한 추가적인 검토 필요
다양한 음성 품질 저하 유형에 대한 일반화 성능 평가 필요
실제 음성 통화 환경에서의 성능 평가 및 검증 필요
QualiSpeech 벤치마크의 객관적인 평가 지표 개발 및 개선 필요
👍