本論文は、ドメイン固有の名前付きオブジェクト、特に同音異義語に困難を経験する自動音声認識(ASR)システムの問題を解決するために、Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation(PARCO)を提案します。 PARCOは、音素認識エンコーディング、対照的なオブジェクトの不明瞭性の除去、オブジェクトレベルの監督、階層的なオブジェクトのフィルタリングを統合して、音声の差別を改善し、完全なオブジェクト検索を保証し、不確実性の下で偽陽性を低減します。中国語AISHELL-1データセットで4.22%の文字エラー率(CER)、英語DATA2データセットで1,000個の妨害要素の下で11.14%の単語エラー率(WER)を達成し、既存の方法をかなり凌駕する性能を示しました。 THCHS-30やLibriSpeechなどのドメイン外のデータセットでも堅牢なパフォーマンスが向上しました。