LLaSE-G1: Incentivizing Generalization Capability for LLaMA-based Speech Enhancement
Created by
Haebom
저자
Boyi Kang, Xinfa Zhu, Zihan Zhang, Zhen Ye, Mingshuai Liu, Ziqian Wang, Yike Zhu, Guobin Ma, Jun Chen, Longshuai Xiao, Chao Weng, Wei Xue, Lei Xie
개요
본 논문은 언어 모델(LM) 기반의 음성 향상(SE)에서 어쿠스틱 정보의 중요성을 강조하며, LLaMA 기반의 새로운 언어 모델 LLaSE-G1을 제안합니다. LLaSE-G1은 WavLM의 연속적인 표현을 입력으로 사용하고 X-Codec2로 음성 토큰을 예측하여 어쿠스틱 일관성을 유지하고, 다중 SE 작업을 위한 이중 채널 입출력을 통해 일반화 능력을 향상시킵니다. 기존의 task-specific 모델들을 능가하는 성능을 보이며, 미지의 SE 작업에도 적용 가능성을 보여줍니다. 코드와 모델을 공개하여 추가 연구를 지원합니다.
시사점, 한계점
•
시사점:
◦
어쿠스틱 정보를 고려한 LM 기반 SE 모델의 새로운 가능성 제시
◦
다양한 SE 작업에 대한 일반화 능력 향상
◦
기존 모델 대비 우수한 성능 및 확장성 증명
◦
코드 및 모델 공개를 통한 연구 활성화
•
한계점:
◦
LLaSE-G1의 성능 향상에 기여하는 요소들에 대한 상세한 분석 부족 (예: WavLM, X-Codec2 사용의 구체적인 효과)
◦
다양한 노이즈 환경 및 음성 특징에 대한 범용성 검증 필요
◦
실제 환경 적용을 위한 추가적인 연구 필요 (예: 실시간 처리 성능, 계산 자원 소모량 등)