Cet article présente une technique de conversion vocale « zero-shot » qui convertit les composantes locuteur de la parole d'entrée en composantes locuteur cible sans entraînement supplémentaire, en utilisant un seul énoncé de référence. Des recherches antérieures se sont concentrées sur l'extraction de représentations de contenu de haute qualité et la suppression des informations locuteur à l'aide de fonctionnalités d'apprentissage auto-supervisé et de quantification K-means. Cependant, ce processus entraîne souvent la perte d'informations phonétiques et prosodiques fines, ce qui dégrade l'intelligibilité et la rétention prosodique. Cet article présente une nouvelle méthode qui sépare efficacement les informations locuteur des informations phonétiques et prosodiques en tenant compte des caractéristiques temporelles grâce aux résidus de quantification. En utilisant uniquement la quantification K-means et la projection linéaire, nous obtenons une séparation simple mais efficace sans structures complexes ni apprentissage supervisé explicite, et permettons une conversion vocale de haute qualité en utilisant uniquement la perte de reconstruction. Les résultats expérimentaux démontrent que le modèle proposé surpasse les méthodes existantes sur les mesures subjectives et objectives, améliorant l'intelligibilité, la similarité entre locuteurs et la rétention prosodique.