본 논문은 단일 참조 발화만을 사용하여 추가적인 훈련 없이 입력 음성의 화자 성분을 목표 화자의 성분으로 변환하는 제로샷 음성 변환 기술을 다룬다. 기존 연구는 자기 지도 학습 특징과 K-means 양자화를 이용하여 고품질의 내용 표현을 추출하고 화자 정보를 제거하는 데 집중했으나, 이 과정에서 미세한 음성 및 운율 정보가 손실되어 명료성과 운율 유지력이 저하되는 문제점이 있었다. 본 논문은 양자화 잔차(residual)를 활용하여 시간적 특성을 고려함으로써 화자 정보와 음성 및 운율 정보를 효과적으로 분리하는 새로운 방법을 제시한다. K-means 양자화와 선형 투영만을 사용하여 복잡한 구조나 명시적인 지도 학습 없이도 단순하면서 효과적인 분리를 달성하며, 재구성 손실만으로 고품질의 음성 변환을 가능하게 한다. 실험 결과, 제안된 모델은 기존 방법보다 주관적 및 객관적 지표 모두에서 우수한 성능을 보이며, 명료성, 화자 유사성, 운율 유지력이 향상됨을 보였다.