LLaSE-G1: Incentivizing Generalization Capability for LLaMA-based Speech Enhancement
Created by
Haebom
Category
Empty
저자
Boyi Kang, Xinfa Zhu, Zihan Zhang, Zhen Ye, Mingshuai Liu, Ziqian Wang, Yike Zhu, Guobin Ma, Jun Chen, Longshuai Xiao, Chao Weng, Wei Xue, Lei Xie
개요
LLaMA 기반 언어 모델인 LLaSE-G1은 음성 향상(SE)에서 일반화 능력을 향상시키는 데 중점을 둡니다. 기존 LM 기반 SE 접근 방식은 의미 정보에만 집중하여 음향 정보를 간과함으로써 향상 후 음향 불일치 및 다양한 SE 작업에 대한 일반화 제한이 발생하는 문제점을 해결하기 위해, LLaSE-G1은 WavLM의 연속 표현을 입력으로 사용하고 X-Codec2에서 음성 토큰을 예측하여 음향 보존을 극대화합니다. 또한, 다중 채널 입력 및 출력을 도입하여 작업별 ID 없이 여러 SE 작업을 통합하여 일반화 능력을 높입니다. 결과적으로 기존의 작업별 판별 및 생성 SE 모델보다 우수한 성능을 보이며, 테스트 시 확장 효과와 미지의 SE 작업에 대한 새로운 기능을 보여줍니다. 코드와 모델을 공개하여 추가 연구를 지원합니다.