Cet article met en évidence les limites des approches existantes qui utilisent des caractéristiques acoustiques, telles que les spectrogrammes Mel, pour générer des signaux vocaux de haute qualité en synthèse vocale (TTS) et en conversion vocale (VC). Les approches existantes utilisent un vocodeur pour convertir les caractéristiques acoustiques en signaux vocaux et appliquer un apprentissage contradictoire dans le domaine temporel, mais le suréchantillonnage des signaux vocaux entraîne une surcharge de temps et de mémoire importante. Pour résoudre ce problème, nous proposons un discriminateur de caractéristiques de projection de vocodeur (VPFD) qui utilise les caractéristiques du vocodeur. À l'aide d'un extracteur de caractéristiques de vocodeur fixe pré-entraîné et d'une seule étape de suréchantillonnage, nous démontrons que le VPFD atteint des performances VC comparables à celles du discriminateur vocal tout en réduisant le temps d'apprentissage et la consommation de mémoire de respectivement 9,6x et 11,4x, grâce à des expériences de distillation VC par diffusion.