Cet article propose une reconnaissance vocale automatique contextuelle robuste augmentée par phonèmes via la désambiguïsation contrastive des entités (PARCO) pour relever les défis rencontrés par les systèmes de reconnaissance automatique de la parole (ASR), qui peinent à gérer les entités nommées spécifiques à un domaine, en particulier les homonymes. PARCO intègre un codage sensible aux phonèmes, une désambiguïsation contrastive des entités, une supervision au niveau de l'entité et un filtrage hiérarchique des entités pour améliorer la discrimination vocale, assurer une détection complète des entités et réduire les faux positifs en cas d'incertitude. Il atteint un taux d'erreur de caractère (CER) de 4,22 % sur l'ensemble de données chinois AISHELL-1 et un taux d'erreur de mot (WER) de 11,14 % sur l'ensemble de données anglais DATA2 sous 1 000 distracteurs, surpassant ainsi considérablement les méthodes existantes. Il démontre également de solides améliorations de performances sur des ensembles de données spécifiques à un domaine tels que THCHS-30 et LibriSpeech.