Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline

Created by
  • Haebom

저자

Helin Wang, Jiarui Hai, Dongchao Yang, Chen Chen, Kai Li, Junyi Peng, Thomas Thebaud, Laureano Moro Velazquez, Jesus Villalba, Najim Dehak

개요

SoloSpeech는 여러 화자의 음성 혼합에서 목표 화자의 음성을 분리하는 목표 음성 추출(TSE)을 위한 새로운 계단식 생성 파이프라인입니다. 기존의 판별 모델 기반 TSE 방법들이 인지 품질은 높지만 인공물 발생, 자연스러움 저하, 훈련 및 테스트 환경 불일치에 대한 민감성 등의 문제점을 가지는 것과 달리, SoloSpeech는 압축, 추출, 재구성, 수정 과정을 통합하여 이러한 문제점들을 해결합니다. 특히, 화자 임베딩을 사용하지 않는 목표 추출기를 사용하여 큐 오디오의 잠재 공간과 혼합 오디오의 잠재 공간을 정렬함으로써 불일치를 방지합니다. Libri2Mix 데이터셋에서 평가한 결과, SoloSpeech는 목표 음성 추출 및 음성 분리 작업에서 최첨단의 지능성과 품질을 달성했으며, 도메인 외 데이터 및 실제 시나리오에서 뛰어난 일반화 성능을 보였습니다.

시사점, 한계점

시사점:
화자 임베딩 없이도 높은 성능을 달성하는 새로운 TSE 방법 제시
기존 방법의 한계점인 인공물, 자연스러움 저하, 환경 민감성 문제 개선
Libri2Mix 데이터셋에서 최첨단 성능 달성
도메인 외 데이터 및 실제 환경에서 뛰어난 일반화 성능
계단식 생성 모델을 통해 높은 지능성과 품질 확보
한계점:
논문에서는 구체적인 한계점이 명시적으로 언급되지 않음. 추가적인 실험 및 분석을 통해 실제 환경 적용 시 발생할 수 있는 문제점 (예: 잡음에 대한 강건성, 다양한 화자 수에 대한 일반화 성능 등) 및 계산 비용 등에 대한 추가적인 연구가 필요할 것으로 예상됨.
👍