GUI grounding은 자연어 지시 사항을 복잡한 사용자 인터페이스의 정확한 영역에 정렬하는 것을 목표로 합니다. 고급 멀티모달 대규모 언어 모델은 시각적 GUI grounding에 강점을 보이지만, 작거나 시각적으로 유사한 대상 및 실제 레이아웃의 모호성에 여전히 어려움을 겪습니다. 본 연구에서는 멀티모달 대규모 언어 모델을 사용하여 반복적인 시각적 추론 및 개선을 수행하는, 학습이 필요 없는 다단계 grounding 프레임워크인 Chain of Ground (CoG)를 제시합니다. 직접적인 예측 대신, 모델은 점진적으로 가설을 반영하고 조정하여 더욱 정확하고 해석 가능한 위치 지정을 수행합니다. 본 접근 방식은 ScreenSpot Pro 벤치마크에서 68.4%의 정확도를 달성하여 4.8% 향상을 보였습니다. 실제 세계 일반화를 측정하기 위해, 흐림 및 마스킹과 같은 시각적 왜곡이 있는 420개의 산업 제어 패널로 구성된 TPanel UI 데이터 세트를 도입했습니다. TPanel UI에서 Chain of Ground는 강력한 기준선인 Qwen3 VL 235B보다 6.9% 향상된 성능을 보여 실제 및 디지털 인터페이스 전반에서 다단계 학습 없는 grounding의 효과를 입증했습니다.