LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec
Created by
Haebom
저자
Yiwei Guo, Zhihan Li, Chenpeng Du, Hankun Wang, Xie Chen, Kai Yu
개요
본 논문은 저비트율과 화자 분리 능력을 모두 갖춘 이산 음성 코덱인 LSCodec을 제안합니다. LSCodec은 화자 섭동 기법을 사용하는 다단계 비지도 학습 프레임워크를 채택합니다. 먼저 연속 정보 병목 현상을 구축한 후, 이산 화자 분리 공간을 생성하는 벡터 양자화를 수행합니다. 마지막으로 이산 토큰 보코더가 LSCodec에서 음향 세부 정보를 개선합니다. 재구성 평가를 통해 LSCodec은 기준 모델보다 훨씬 적은 코드북과 어휘 크기로 우수한 명료도와 음질을 보여줍니다. 음성 변환 및 화자 탐색 실험은 LSCodec의 뛰어난 화자 분리 성능을 입증하며, ablation study는 제안된 학습 프레임워크의 효과를 검증합니다.
시사점, 한계점
•
시사점:
◦
저비트율 음성 생성 모델 개발에 기여할 수 있는 새로운 이산 음성 코덱 LSCodec 제안.