본 논문은 기존의 비효율적인 제안 기반의 두 단계 접근 방식 대신 효율적인 end-to-end 직접 참조 패러다임을 사용하는 최근의 시각적 접지(visual grounding) 연구 동향을 고려하여, 잠재적인 대상의 이점을 간과하는 기존 방법들의 한계를 극복하고자 제안된 PropVG 모델을 제시합니다. PropVG는 추가적인 검출기를 필요로 하지 않고 전경 객체 제안 생성과 참조 객체 이해를 원활하게 통합하는 end-to-end 제안 기반 프레임워크입니다. 문장 및 단어 수준의 대조 학습을 사용하는 Contrastive-based Refer Scoring (CRS) 모듈과 객체 및 의미 수준 정보를 융합하여 부재 대상의 인식을 향상시키는 Multi-granularity Target Discrimination (MTD) 모듈을 도입하여 다중 입자성 구분 기능을 강화합니다. gRefCOCO, Ref-ZOM, R-RefCOCO, RefCOCO 벤치마크에서 PropVG의 효과를 입증하는 광범위한 실험 결과를 제시하며, 코드와 모델은 깃허브에 공개합니다.