본 논문은 그래픽 사용자 인터페이스(GUI) grounding, 즉 자연어 명령어를 GUI 상의 특정 행동으로 매핑하는 능력에 초점을 맞추고 있습니다. 기존 벤치마크들이 단순한 참조 표현에만 집중하여 실제 상호작용의 복잡성을 제대로 반영하지 못하는 한계를 지적하며, 이를 해결하기 위해 다양한 작업 유형(텍스트 매칭, 요소 인식, 레이아웃 이해, 정밀 조작 등)을 포함하는 564개의 세부 주석이 달린 샘플로 구성된 포괄적인 벤치마크 OSWorld-G를 제시합니다. 또한, 다양한 관점에서 작업을 분리하여 4백만 개의 예제를 포함하는 대규모 컴퓨터 사용 grounding 데이터셋 Jedi를 합성하고 공개합니다. Jedi를 사용하여 훈련된 다중 스케일 모델은 ScreenSpot-v2, ScreenSpot-Pro, 그리고 OSWorld-G에서 기존 접근 방식을 능가하는 성능을 보여줍니다. 더 나아가, Jedi를 이용한 grounding 향상이 복잡한 컴퓨터 작업에서 기초 모델의 에이전트 능력을 5%에서 27%까지 향상시킨다는 것을 보여줍니다. 마지막으로, ablation study를 통해 grounding 성능에 기여하는 주요 요소를 파악하고, 다양한 인터페이스 요소에 대한 특수 데이터를 결합하면 새로운 인터페이스에 대한 구성적인 일반화가 가능함을 확인합니다. 모든 벤치마크, 데이터, 체크포인트 및 코드는 오픈소스로 제공됩니다.