LLaSE-G1: Incentivizing Generalization Capability for LLaMA-based Speech Enhancement
Created by
Haebom
Category
Empty
저자
Boyi Kang, Xinfa Zhu, Zihan Zhang, Zhen Ye, Mingshuai Liu, Ziqian Wang, Yike Zhu, Guobin Ma, Jun Chen, Longshuai Xiao, Chao Weng, Wei Xue, Lei Xie
개요
LLaMA 기반 언어 모델인 LLaSE-G1은 음성 향상(SE)에서 일반화 능력을 향상시키는 데 중점을 둡니다. 기존의 LM 기반 SE 접근 방식은 의미 정보에만 초점을 맞춰 음향 정보를 간과하는 경향이 있었지만, LLaSE-G1은 WavLM의 연속 표현을 입력으로 사용하고 X-Codec2로 음성 토큰을 예측하여 음향 정보를 보존합니다. 또한, 다중 채널 입력 및 출력을 통해 여러 SE 작업을 통합하여 작업별 ID가 필요 없도록 하여 일반화 능력을 향상시킵니다. 결과적으로 LLaSE-G1은 기존의 task-specific 모델들을 능가하는 성능을 보이며, 미지의 SE 작업에도 적용 가능성을 보여줍니다. 코드와 모델 또한 공개하여 후속 연구를 지원합니다.