Este artículo presenta una técnica de conversión de voz de disparo cero que convierte los componentes del hablante del habla de entrada en componentes del hablante objetivo sin entrenamiento adicional, utilizando únicamente un enunciado de referencia. Investigaciones previas se centraron en la extracción de representaciones de contenido de alta calidad y la eliminación de información del hablante mediante funciones de aprendizaje autosupervisado y cuantificación de K-medias. Sin embargo, este proceso a menudo resulta en la pérdida de información fonética y prosódica de grano fino, lo que degrada la inteligibilidad y la retención prosódica. Este artículo presenta un método novedoso que separa eficazmente la información del hablante de la información fonética y prosódica, considerando las características temporales mediante residuos de cuantificación. Utilizando únicamente la cuantificación de K-medias y la proyección lineal, logramos una separación simple pero efectiva sin estructuras complejas ni aprendizaje supervisado explícito, y permitimos una conversión de voz de alta calidad utilizando únicamente la pérdida de reconstrucción. Los resultados experimentales demuestran que el modelo propuesto supera a los métodos existentes tanto en métricas subjetivas como objetivas, mejorando la inteligibilidad, la similitud entre hablantes y la retención prosódica.