본 논문은 음성 및 노래 음성을 처리하는 통합 생성 모델 AnyEnhance를 소개합니다. 마스크 기반 생성 모델인 AnyEnhance는 노이즈 제거, 잔향 제거, 클리핑 제거, 슈퍼 해상도, 대상 화자 추출 등 다양한 음성 향상 작업을 동시에, 미세 조정 없이 수행할 수 있습니다. AnyEnhance는 문맥 내 학습을 위한 프롬프트 안내 메커니즘을 도입하여, 참조 화자의 음색을 기본적으로 받아들일 수 있습니다. 또한, 마스크 기반 생성 모델의 생성 과정에 자체 비평 메커니즘을 도입하여 반복적인 자체 평가 및 개선을 통해 더 높은 품질의 출력을 생성합니다. 다양한 향상 작업에 대한 광범위한 실험을 통해 AnyEnhance가 기존 방법보다 객관적인 지표와 주관적인 청취 테스트 모두에서 우수한 성능을 보임을 입증합니다.