Este artículo destaca las limitaciones de los enfoques existentes que utilizan características acústicas, como los espectrogramas Mel, para generar señales de voz de alta calidad en la síntesis de voz (TTS) y la conversión de voz (VC). Los enfoques existentes utilizan un vocoder para convertir las características acústicas en señales de voz y aplicar entrenamiento adversarial en el dominio temporal, pero el sobremuestreo de las señales de voz supone una sobrecarga significativa de tiempo y memoria. Para solucionar esto, proponemos un Discriminador de Características de Proyección de Vocoder (VPFD) que utiliza las características del vocoder. Mediante un extractor de características de vocoder fijo y preentrenado y un único paso de sobremuestreo, demostramos que el VPFD logra un rendimiento de VC comparable al del discriminador de voz, a la vez que reduce el tiempo de entrenamiento y el consumo de memoria en 9,6 y 11,4 veces, respectivamente, mediante experimentos de destilación de VC basados en difusión.