Vision Language Models (VLMs)의 공간 추론 능력에서 발생하는 의미론적-기하학적 격차 문제를 해결하기 위해, GCA (Geometrically-Constrained Agent)라는 훈련 없는 에이전트 기반 패러다임을 제안합니다. GCA는 VLM의 역할을 의미론적 분석과 작업 해결의 두 단계로 분리하여, 사용자의 모호한 쿼리를 형식적이고 검증 가능한 작업 제약 조건으로 변환하고, 이 제약 조건 내에서 도구 호출을 생성 및 실행합니다. 이를 통해 기하학적으로 제한된 추론 전략을 구현하여 공간 추론에서 견고하고 검증 가능한 경로를 제공합니다.