Bài báo này trình bày mô hình PropVG, một mô hình được đề xuất, khắc phục những hạn chế của các phương pháp hiện có vốn bỏ qua lợi ích của các mục tiêu tiềm ẩn. Xem xét các xu hướng gần đây trong nghiên cứu nền tảng trực quan, sử dụng mô hình tham chiếu trực tiếp đầu cuối hiệu quả thay vì phương pháp tiếp cận hai bước dựa trên đề xuất kém hiệu quả hiện có, bài báo này đề xuất PropVG để khắc phục những hạn chế của các phương pháp hiện có vốn bỏ qua lợi ích của các mục tiêu tiềm ẩn. PropVG là một khuôn khổ dựa trên đề xuất đầu cuối, tích hợp liền mạch việc tạo đề xuất đối tượng tiền cảnh và hiểu đối tượng tham chiếu mà không cần thêm bộ phát hiện. Nó tăng cường khả năng phân biệt mục tiêu đa hạt bằng cách giới thiệu mô-đun Chấm điểm Tham chiếu dựa trên Tương phản (CRS) sử dụng học tương phản ở cấp độ câu và từ, và mô-đun Phân biệt Mục tiêu Đa hạt (MTD) giúp cải thiện khả năng nhận dạng mục tiêu vắng mặt bằng cách tích hợp thông tin ở cấp độ đối tượng và ngữ nghĩa. Chúng tôi trình bày các kết quả thử nghiệm mở rộng chứng minh hiệu quả của PropVG trên các chuẩn mực gRefCOCO, Ref-ZOM, R-RefCOCO và RefCOCO. Mã và mô hình được công khai trên GitHub.