본 논문은 기존 음성 향상 기법의 한계점인 수작업 기반 손실 함수 또는 심층 특징 손실 함수의 사용으로 인한 미묘한 신호 특성 포착 실패 문제를 해결하기 위해, 모델 자체의 인코더를 손실 함수로 활용하는 새로운 학습 패러다임인 "Model as Loss"를 제안합니다. 이 방법은 인코더의 특징 공간을 활용하여 깨끗한 신호의 지각적 및 작업 관련 특성과 일관된 출력을 생성하도록 디코더를 최적화합니다. 결과적으로 기존 심층 특징 손실 함수 기반 방법보다 우수한 지각적 품질과 도메인 내외 데이터에 대한 강건한 일반화 성능을 보입니다.