본 논문은 다양한 시각적 요소, 공간적 혼잡, 언어의 모호성으로 인해 어려움을 겪는 그래픽 사용자 인터페이스(GUI)에서 자연어 질의를 기반으로 하는 문제를 다룹니다. DiMo-GUI라는 학습이 필요없는 GUI 기반 프레임워크를 제시하는데, 이는 동적 시각적 기반 및 모달 인식 최적화라는 두 가지 핵심 전략을 활용합니다. GUI를 단일 이미지로 처리하는 대신, 텍스트 요소와 아이콘 요소로 입력을 분할하여 일반적인 비전-언어 모델을 사용하여 각 모달리티를 독립적으로 추론합니다. 예측이 모호하거나 잘못된 경우, DiMo-GUI는 모델의 초기 예측을 중심으로 후보 초점 영역을 생성하고 점진적으로 하위 영역으로 확대하여 기반 결과를 개선함으로써 동적으로 주의를 집중합니다. 이러한 계층적 개선 과정은 추가적인 학습이나 주석 없이 시각적으로 혼잡한 레이아웃의 모호성을 해소하는 데 도움이 됩니다. 표준 GUI 기반 벤치마크에서 접근 방식을 평가하고 기준 추론 파이프라인보다 일관된 개선을 보여줌으로써 모달리티 분리와 영역 중심 추론을 결합하는 효과를 강조합니다.