Sign In

LLaSE-G1: Incentivizing Generalization Capability for LLaMA-based Speech Enhancement

Created by
  • Haebom
Category
Empty

저자

Boyi Kang, Xinfa Zhu, Zihan Zhang, Zhen Ye, Mingshuai Liu, Ziqian Wang, Yike Zhu, Guobin Ma, Jun Chen, Longshuai Xiao, Chao Weng, Wei Xue, Lei Xie

개요

LLaMA 기반 언어 모델인 LLaSE-G1은 음성 향상(SE)에서 일반화 능력을 향상시키는 데 중점을 둡니다. 기존의 LM 기반 SE 접근 방식은 의미 정보에만 초점을 맞춰 음향 정보를 간과하는 경향이 있었지만, LLaSE-G1은 WavLM의 연속 표현을 입력으로 사용하고 X-Codec2로 음성 토큰을 예측하여 음향 정보를 보존합니다. 또한, 다중 채널 입력 및 출력을 통해 여러 SE 작업을 통합하여 작업별 ID가 필요 없도록 하여 일반화 능력을 향상시킵니다. 결과적으로 LLaSE-G1은 기존의 task-specific 모델들을 능가하는 성능을 보이며, 미지의 SE 작업에도 적용 가능성을 보여줍니다. 코드와 모델 또한 공개하여 후속 연구를 지원합니다.

시사점, 한계점

시사점:
음향 정보와 의미 정보를 모두 고려하여 음성 향상의 정확도와 일관성을 높였습니다.
다양한 음성 향상 작업에 대한 일반화 능력을 향상시켰습니다.
기존의 task-specific 모델보다 우수한 성능을 보였습니다.
코드와 모델 공개를 통해 추가 연구를 지원합니다.
한계점:
LLaSE-G1의 성능 향상이 특정 데이터셋이나 작업에 국한될 가능성이 있습니다.
LLaSE-G1의 일반화 능력에 대한 추가적인 평가가 필요합니다.
LLaSE-G1의 계산 비용이 높을 수 있습니다.
👍