본 논문은 그래픽 사용자 인터페이스(GUI) 에이전트의 성능 향상을 위해 시각적 기반 접근 방식을 제시합니다. 기존의 텍스트 기반 접근 방식(HTML, 접근성 트리 등)이 가지는 노이즈, 불완전성, 높은 계산 비용 등의 문제점을 해결하기 위해, 사람처럼 시각적으로 환경을 인지하고 픽셀 단위로 GUI 조작을 수행하는 에이전트를 제안합니다. 이를 위해 다양한 GUI 요소에 대한 언어적 설명을 해당 요소의 좌표로 정확하게 매핑하는 시각적 기반 모델을 개발합니다. 130만 개의 스크린샷과 1천만 개의 GUI 요소 및 설명으로 구성된 대규모 데이터셋을 이용하여 UGround라는 강력한 시각적 기반 모델을 학습시켰으며, 여러 벤치마크에서 기존 최첨단 모델들을 상당한 차이로 능가하는 성능을 보임을 실험적으로 증명합니다.