Este artículo propone el Reconocimiento Automático de Voz (ASR) Robusto Contextual Aumentado por Fonemas mediante Desambiguación de Entidades Contrastivas (PARCO) para abordar los desafíos que enfrentan los sistemas de reconocimiento automático de voz (ASR), que tienen dificultades con entidades nombradas específicas de dominio, particularmente homónimos. PARCO integra codificación con reconocimiento de fonemas, desambiguación de entidades contrastivas, supervisión a nivel de entidad y filtrado jerárquico de entidades para mejorar la discriminación del habla, asegurar la detección completa de entidades y reducir los falsos positivos en condiciones de incertidumbre. Logra una tasa de error de caracteres (CER) del 4,22% en el conjunto de datos chino AISHELL-1 y una tasa de error de palabras (WER) del 11,14% en el conjunto de datos inglés DATA2 con 1000 distractores, superando significativamente los métodos existentes. También demuestra mejoras robustas en el rendimiento en conjuntos de datos específicos de dominio como THCHS-30 y LibriSpeech.