Sign In

AnyEnhance: A Unified Generative Model with Prompt-Guidance and Self-Critic for Voice Enhancement

Created by
  • Haebom
Category
Empty

저자

Junan Zhang, Jing Yang, Zihao Fang, Yuancheng Wang, Zehua Zhang, Zhuo Wang, Fan Fan, Zhizheng Wu

개요

본 논문은 음성 및 노래 음성을 처리하는 통합 생성 모델 AnyEnhance를 소개합니다. 마스크 기반 생성 모델인 AnyEnhance는 노이즈 제거, 잔향 제거, 클리핑 제거, 슈퍼 해상도, 대상 화자 추출 등 다양한 음성 향상 작업을 동시에, 미세 조정 없이 수행할 수 있습니다. AnyEnhance는 문맥 내 학습을 위한 프롬프트 안내 메커니즘을 도입하여, 참조 화자의 음색을 기본적으로 받아들일 수 있습니다. 또한, 마스크 기반 생성 모델의 생성 과정에 자체 비평 메커니즘을 도입하여 반복적인 자체 평가 및 개선을 통해 더 높은 품질의 출력을 생성합니다. 다양한 향상 작업에 대한 광범위한 실험을 통해 AnyEnhance가 기존 방법보다 객관적인 지표와 주관적인 청취 테스트 모두에서 우수한 성능을 보임을 입증합니다.

시사점, 한계점

시사점:
음성 및 노래 음성 처리를 위한 통합 모델 제시.
다양한 음성 향상 작업을 동시에 수행 가능.
미세 조정 없이, 프롬프트 기반 참조 음색 학습 지원.
자체 비평 메커니즘을 통해 출력 품질 향상.
기존 방법 대비 우수한 성능 입증.
한계점:
구체적인 한계점은 논문 내용에 명시되지 않음.
(추정) 모델의 복잡성, 계산 비용, 특정 환경에서의 성능 저하 가능성.
👍