Este artículo presenta el modelo PropVG, un modelo propuesto que supera las limitaciones de los métodos existentes que pasan por alto los beneficios de los objetivos latentes. Considerando las tendencias recientes en la investigación de base visual que utilizan un paradigma eficiente de referencia directa de extremo a extremo en lugar del ineficiente enfoque actual de dos pasos basado en propuestas, este artículo propone PropVG para superar las limitaciones de los métodos existentes que pasan por alto los beneficios de los objetivos latentes. PropVG es un marco integral basado en propuestas que integra a la perfección la generación de propuestas de objetos en primer plano y la comprensión de objetos de referencia sin necesidad de detectores adicionales. Mejora la discriminación de objetivos de granularidad múltiple mediante la introducción de un módulo de Puntuación de Referencia Basada en Contraste (CRS) que utiliza aprendizaje contrastivo a nivel de oración y palabra, y un módulo de Discriminación de Objetivos de Granularidad Múltiple (MTD) que mejora el reconocimiento de objetivos ausentes mediante la integración de información a nivel de objeto y semántico. Presentamos amplios resultados experimentales que demuestran la eficacia de PropVG en los puntos de referencia gRefCOCO, Ref-ZOM, R-RefCOCO y RefCOCO. El código y el modelo están disponibles públicamente en GitHub.