본 논문은 사전 훈련된 VLM(Vision-Language Models)을 활용하여 훈련 과정 없이 제로샷 비전을 수행하는 바이너리 검증 워크플로우를 제안합니다. 이 워크플로우는 (i) 개방형 질문을 명확한 후보 목록을 가진 객관식 질문(MCQ)으로 변환하는 양자화 단계와, (ii) 각 후보에 대해 True/False 질문을 던지고, 정확히 하나만 참인 경우 해당 후보를 선택하고, 그렇지 않은 경우 남아있는 후보들에 대한 MCQ로 되돌아가는 이진화 단계로 구성됩니다. 제안된 워크플로우는 참조 표현 기반(REC), 공간 추론(Spatial-Map, Spatial-Grid, Spatial-Maze), 및 BLINK-Jigsaw 등의 다양한 태스크에서 평가되었으며, 개방형 질문에 직접 답하는 것보다 성능 향상을 보였습니다. 또한, 이진화는 추가적인 성능 향상을 가져왔습니다. 연구는 개방형 비전 쿼리를 MCQ로 양자화하고, True/False 검증으로 이진화하는 방법을 이론적으로 설명하며, 부울 해상도가 정확도를 향상시키는 이유를 분석합니다.