Este artículo propone el marco del Modelo de Eficiencia de Transformación Computacional (CTEFM-VC) para abordar los desafíos de asegurar la similitud y naturalidad de los hablantes en la conversión de voz (VC) de disparo cero. CTEF-VC descompone el habla en contenido y timbre y reconstruye el espectrograma de Mel del habla fuente mediante un modelo de coincidencia de flujo condicional. Específicamente, introduce el modelado de conjuntos de timbres sensible al contexto y una función de pérdida de timbre basada en la similitud estructural para mejorar la naturalidad y el rendimiento del modelado de timbre del habla generada. Un módulo de atención cruzada que integra adaptativamente diversas incrustaciones de verificación de hablantes aprovecha eficazmente el contenido fuente y los elementos de timbre de destino. Los resultados experimentales muestran que CTEFM-VC supera significativamente a los sistemas de VC de disparo cero de última generación existentes, logrando un rendimiento de vanguardia en similitud, naturalidad e inteligibilidad de los hablantes.