LLaSE-G1: Incentivizing Generalization Capability for LLaMA-based Speech Enhancement
Created by
Haebom
저자
Boyi Kang, Xinfa Zhu, Zihan Zhang, Zhen Ye, Mingshuai Liu, Ziqian Wang, Yike Zhu, Guobin Ma, Jun Chen, Longshuai Xiao, Chao Weng, Wei Xue, Lei Xie
개요
본 논문은 대규모 언어 모델(LLM) 기반의 음성 향상(SE) 기술의 한계를 극복하기 위해 LLaSE-G1 모델을 제시합니다. 기존 LLM 기반 SE 접근 방식은 의미 정보에만 집중하여 음향적 일관성을 저해하고 다양한 SE 작업에 대한 일반화 능력이 제한적이라는 문제점을 가지고 있습니다. LLaSE-G1은 WavLM의 연속 표현을 입력으로 사용하고 X-Codec2로 음성 토큰을 예측하여 음향적 보존을 극대화함으로써 음향적 일관성 문제를 해결합니다. 또한, 이중 채널 입력 및 출력을 도입하여 여러 SE 작업을 통합하고 작업별 ID가 필요 없도록 일반화 능력을 향상시킵니다. 결과적으로 LLaSE-G1은 기존의 작업별 판별 및 생성 SE 모델보다 우수한 성능을 보이며, 테스트 시간의 확장 효과와 미지의 SE 작업에 대한 새로운 기능을 보여줍니다. 본 논문에서는 코드와 모델을 공개하여 추가 연구를 지원합니다.
시사점, 한계점
•
시사점:
◦
LLM 기반 음성 향상 모델의 음향적 일관성 문제와 일반화 성능 저하 문제를 효과적으로 해결하는 새로운 모델 LLaSE-G1을 제시했습니다.
◦
WavLM과 X-Codec2를 활용하여 음향 정보를 효과적으로 처리하고 보존하는 방법을 제시했습니다.