Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline

Created by
  • Haebom

저자

Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak

개요

본 논문은 다중 화자 혼합 음성에서 목표 화자의 음성을 분리하는 목표 음성 추출(TSE) 문제를 다룹니다. 기존의 TSE 방법들은 높은 지각 품질을 제공하는 차별적 모델을 주로 사용하지만, 인공물 발생, 자연스러움 저하, 훈련 및 테스트 환경 간 불일치에 대한 민감성 등의 문제점을 가지고 있습니다. 반면, 생성적 모델은 지각 품질과 명료도가 낮다는 단점이 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 압축, 추출, 재구성, 수정 과정을 통합한 새로운 계층적 생성 파이프라인인 SoloSpeech를 제안합니다. SoloSpeech는 큐 오디오의 잠재 공간으로부터 조건 정보를 활용하여 혼합 음성의 잠재 공간과 정렬함으로써 불일치를 방지하는 화자 임베딩이 없는 목표 추출기를 특징으로 합니다. Libri2Mix 데이터셋에서 평가한 결과, SoloSpeech는 목표 음성 추출 및 음성 분리 작업에서 최첨단의 명료도와 품질을 달성하였으며, 도메인 외 데이터 및 실제 환경에서 뛰어난 일반화 성능을 보였습니다.

시사점, 한계점

시사점:
화자 임베딩 없이도 높은 성능을 달성하는 새로운 TSE 모델 SoloSpeech 제안.
압축, 추출, 재구성, 수정 과정을 통합한 계층적 생성 파이프라인의 효과성 입증.
Libri2Mix 데이터셋에서 최첨단의 명료도와 품질 달성.
도메인 외 데이터 및 실제 환경에서 뛰어난 일반화 성능.
한계점:
Libri2Mix 데이터셋에 대한 의존성. 다른 데이터셋에서의 성능 검증 필요.
실제 환경에서의 일반화 성능은 제한적인 범위에서만 평가되었을 가능성 존재. 더 광범위한 실험 필요.
계산 비용 및 복잡성에 대한 분석 부족.
👍