본 논문은 기존의 Referring Expression Comprehension (REC) 작업에서 과제별로 학습된 접지 모델을 사용하는 방식 대신, REC 특정 훈련 없이 제로샷 방식으로 경쟁력 있는 또는 우수한 성능을 달성할 수 있음을 보여줍니다. COCO-clean 일반 감지기(YOLO-World)에서 제안된 박스에 대해 일반 목적의 시각 언어 모델(VLM)이 True/False 질의에 독립적으로 답변하는 박스 단위 시각-언어 검증으로 REC를 재구성합니다. 이 간단한 절차는 박스 간 간섭을 줄이고, 기권 및 다중 일치를 지원하며, 미세 조정이 필요하지 않습니다. RefCOCO, RefCOCO+, RefCOCOg 데이터셋에서 제로샷 GroundingDINO 기준선을 능가할 뿐만 아니라 REC에 대해 훈련된 GroundingDINO 및 GroundingDINO+CRG의 보고된 결과를 뛰어넘는 성능을 보입니다. 동일한 제안을 사용한 통제 연구는 검증이 선택 기반 프롬프팅보다 훨씬 우수함을 확인했으며, 결과는 개방형 VLM에서도 유지됩니다. 결론적으로, 과제 특정 사전 훈련보다는 워크플로우 설계가 강력한 제로샷 REC 성능을 좌우함을 보여줍니다.