Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec

Created by
  • Haebom

저자

Yiwei Guo, Zhihan Li, Chenpeng Du, Hankun Wang, Xie Chen, Kai Yu

개요

본 논문은 저비트율과 화자 분리 능력을 모두 갖춘 이산 음성 코덱인 LSCodec을 제안합니다. LSCodec은 화자 섭동 기법을 사용하는 다단계 비지도 학습 프레임워크를 채택합니다. 먼저 연속 정보 병목 현상을 구축한 후, 이산 화자 분리 공간을 생성하는 벡터 양자화를 수행합니다. 마지막으로 이산 토큰 보코더가 LSCodec에서 음향 세부 정보를 개선합니다. 재구성 평가를 통해 LSCodec은 기준 모델보다 훨씬 적은 코드북과 어휘 크기로 우수한 명료도와 음질을 보여줍니다. 음성 변환 및 화자 탐색 실험은 LSCodec의 뛰어난 화자 분리 성능을 입증하며, ablation study는 제안된 학습 프레임워크의 효과를 검증합니다.

시사점, 한계점

시사점:
저비트율 음성 생성 모델 개발에 기여할 수 있는 새로운 이산 음성 코덱 LSCodec 제안.
기존 모델보다 적은 코드북과 어휘 크기로 높은 음질과 명료도 달성.
효과적인 화자 분리 성능을 통해 음성 변환 등 다양한 응용 가능성 제시.
다단계 비지도 학습 프레임워크의 효과성 검증.
한계점:
제시된 학습 프레임워크의 일반화 성능에 대한 추가적인 연구 필요.
다양한 음성 데이터셋에 대한 성능 평가 및 비교 분석 필요.
실제 응용 환경에서의 성능 및 효율성에 대한 추가적인 검증 필요.
👍