본 논문은 Zero-shot Singing Voice Conversion (SVC)에서 kNN-VC 프레임워크의 강건성을 향상시키는 두 가지 새로운 방법을 제시합니다. 첫째, WavLM 기반 kNN-VC의 표현이 고조파를 충분히 반영하지 못해 둔탁한 소리와 링잉 아티팩트가 발생하는 문제를 해결하기 위해, WavLM, 피치 컨투어, 스펙트로그램 간의 일대일 대응 관계를 이용하여 가산 합성을 수행하고, 그 결과를 모델에 통합합니다. 둘째, 기존 kNN-VC가 SVC에서 중요한 지각적 요소인 연결 부분의 매끄러움을 고려하지 않는 문제를 해결하기 위해, 부적합한 kNN 후보를 걸러내고 추론 과정에서 후보들의 가중치 합을 최적화하는 새로운 거리 측정 방법을 제안합니다. 제안된 방법들은 kNN-VC 프레임워크에 기반하여 구현되었지만, 일반적인 연결형 신경망 합성 모델에도 적용 가능합니다. 실험 결과는 제안된 방법들이 강건한 SVC를 달성하는 데 효과적임을 보여줍니다.