본 논문은 음성 변환(Voice Conversion, VC)에서 타겟 화자와의 유사성을 저해하는 소스 화자의 음색 정보 유출 문제를 해결하기 위한 새로운 방법을 제시합니다. 기존의 콘텐츠 추출기에 잔차 블록(residual block)을 추가하여, 보편적인 의미론적 사전(universal semantic dictionary) 기반의 콘텐츠 특징 재표현(Content Feature Re-expression, CFR) 모듈과 원본 콘텐츠 계층으로의 skip connection을 통해 음색 정보가 제거된 콘텐츠 표현과 미세한 정보를 동시에 활용합니다. CFR 모듈은 다양한 화자의 음성 데이터를 이용하여 통계적으로 계산된, 화자 독립적인 안정적인 의미론적 집합을 제공하며, 음소 사후 확률을 가중치로 사용하여 콘텐츠 프레임을 사전 항목들의 가중 선형 결합으로 표현함으로써 음색 정보가 제거된 콘텐츠 표현을 얻습니다. 다양한 VC 프레임워크에 대한 광범위한 실험을 통해 제안된 방법이 음색 유출을 효과적으로 완화하고 타겟 화자와의 유사성을 크게 향상시킨다는 것을 보여줍니다.