Sign In

LLaSE-G1: Incentivizing Generalization Capability for LLaMA-based Speech Enhancement

Created by
  • Haebom
Category
Empty

저자

Boyi Kang, Xinfa Zhu, Zihan Zhang, Zhen Ye, Mingshuai Liu, Ziqian Wang, Yike Zhu, Guobin Ma, Jun Chen, Longshuai Xiao, Chao Weng, Wei Xue, Lei Xie

개요

LLaMA 기반 언어 모델인 LLaSE-G1은 음성 향상(SE)에서 일반화 능력을 향상시키는 데 중점을 둡니다. 기존 LM 기반 SE 접근 방식은 의미 정보에만 집중하여 음향 정보를 간과함으로써 향상 후 음향 불일치 및 다양한 SE 작업에 대한 일반화 제한이 발생하는 문제점을 해결하기 위해, LLaSE-G1은 WavLM의 연속 표현을 입력으로 사용하고 X-Codec2에서 음성 토큰을 예측하여 음향 보존을 극대화합니다. 또한, 다중 채널 입력 및 출력을 도입하여 작업별 ID 없이 여러 SE 작업을 통합하여 일반화 능력을 높입니다. 결과적으로 기존의 작업별 판별 및 생성 SE 모델보다 우수한 성능을 보이며, 테스트 시 확장 효과와 미지의 SE 작업에 대한 새로운 기능을 보여줍니다. 코드와 모델을 공개하여 추가 연구를 지원합니다.

시사점, 한계점

시사점:
음향 정보와 의미 정보를 모두 고려하여 음성 향상의 성능 향상 및 음향 일관성 확보.
다양한 음성 향상 작업에 대한 일반화 능력 향상.
기존 모델 대비 우수한 성능과 확장성.
코드 및 모델 공개를 통한 연구 활성화.
한계점:
LLaSE-G1의 성능 향상에 기여하는 요소들 간의 상호작용에 대한 자세한 분석 부족.
다양한 노이즈 유형 및 음성 조건에 대한 일반화 성능 평가 부족.
실제 환경에서의 성능 평가 부족.
👍