Cet article présente le modèle PropVG, un modèle proposé qui surmonte les limites des méthodes existantes qui négligent les avantages des cibles latentes. Compte tenu des tendances récentes de la recherche sur l'ancrage visuel, qui privilégie un paradigme efficace de référencement direct de bout en bout au lieu de l'approche inefficace en deux étapes basée sur des propositions, cet article propose PropVG pour surmonter les limites des méthodes existantes qui négligent les avantages des cibles latentes. PropVG est un cadre de référencement de bout en bout qui intègre de manière transparente la génération de propositions d'objets de premier plan et la compréhension des objets de référence sans nécessiter de détecteurs supplémentaires. Il améliore la discrimination multigranulaire des cibles grâce à l'introduction d'un module de score de référencement basé sur le contraste (CRS) qui utilise l'apprentissage contrastif au niveau des phrases et des mots, et d'un module de discrimination multigranulaire des cibles (MTD) qui améliore la reconnaissance des cibles absentes en intégrant des informations au niveau de l'objet et de la sémantique. Nous présentons des résultats expérimentaux approfondis démontrant l'efficacité de PropVG sur les benchmarks gRefCOCO, Ref-ZOM, R-RefCOCO et RefCOCO. Le code et le modèle sont disponibles publiquement sur GitHub.