Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline

Created by
  • Haebom

저자

Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak

개요

본 논문은 다중 화자 음성 혼합에서 특정 화자의 음성을 분리하는 목표 음성 추출(TSE) 문제를 다룹니다. 기존의 TSE 방법들은 높은 인식 품질을 제공하는 판별 모델을 주로 사용하지만, 인공물 발생, 자연스러움 저하, 훈련 및 테스트 환경 간 불일치에 대한 민감성 등의 문제점을 가지고 있습니다. 반면, 생성 모델은 인식 품질과 명료도가 낮다는 단점이 있습니다. 본 논문에서는 압축, 추출, 재구성, 수정 과정을 통합한 새로운 계단식 생성 파이프라인인 SoloSpeech를 제안합니다. SoloSpeech는 화자 임베딩을 사용하지 않고, 큐 오디오의 잠재 공간으로부터 조건 정보를 활용하여 혼합 오디오의 잠재 공간과 정렬함으로써 불일치를 방지합니다. Libri2Mix 데이터셋에서 평가한 결과, SoloSpeech는 기존 최고 성능을 능가하는 명료도와 품질을 달성하였으며, 도메인 외 데이터 및 실제 환경에서도 뛰어난 일반화 성능을 보였습니다.

시사점, 한계점

시사점:
화자 임베딩 없이도 높은 성능을 달성하는 새로운 TSE 방법 제시.
기존 방법들의 한계점인 인공물 발생, 자연스러움 저하, 도메인 적응 문제 개선.
Libri2Mix 데이터셋에서 새로운 최고 성능 달성.
도메인 외 데이터 및 실제 환경에서 뛰어난 일반화 성능 확인.
한계점:
SoloSpeech의 계산 비용 및 복잡성에 대한 분석 부족.
다양한 잡음 환경에 대한 로버스트니스 평가 부족.
실제 환경 데이터셋 외 추가적인 데이터셋에 대한 평가 부족.
👍