본 논문은 기존 제로샷 음성 변환 시스템의 한계점인 화자의 말투 정확도 부족 문제를 해결하기 위해, 내용과 운율 정보를 분리하는 새로운 음성 변환 프레임워크인 Discl-VC를 제안합니다. Discl-VC는 자기 지도 학습 기반 음성 표현에서 내용과 운율 정보를 분리하고, 흐름 일치 변환기를 이용한 문맥 내 학습을 통해 목표 화자의 음성을 합성합니다. 또한, 프롬프트 기반의 비자동회귀 방식으로 이산적인 운율 토큰을 예측하는 마스크 생성 변환기를 도입하여 생성된 음성의 운율을 정밀하게 제어할 수 있도록 합니다. 실험 결과, Discl-VC는 제로샷 음성 변환에서 우수한 성능을 보이며, 합성 음성의 운율 제어 정확도가 매우 높음을 보여줍니다.