본 논문은 그래픽 사용자 인터페이스(GUI) grounding, 즉 자연어 명령어를 GUI 상의 특정 동작에 매핑하는 능력을 향상시키기 위한 새로운 벤치마크 OSWorld-G와 대규모 데이터셋 Jedi를 제시합니다. 기존 벤치마크의 단순성을 극복하고자 다양한 작업 유형(텍스트 매칭, 요소 인식, 레이아웃 이해, 정밀 조작 등)을 포함하는 564개의 세밀하게 주석이 달린 샘플로 구성된 OSWorld-G를 개발했습니다. 또한, 다각적 작업 분리를 통해 4백만 개의 예제를 포함하는 대규모 GUI grounding 데이터셋 Jedi를 공개합니다. Jedi를 사용하여 훈련된 다중 스케일 모델은 ScreenSpot-v2, ScreenSpot-Pro, OSWorld-G에서 기존 접근 방식을 능가하는 성능을 보여줍니다. 더 나아가, Jedi를 이용한 향상된 grounding이 복잡한 컴퓨터 작업에서 기본 모델의 에이전트 기능을 5%에서 27%까지 향상시킨다는 것을 보여줍니다. 마지막으로, ablation study를 통해 grounding 성능에 기여하는 주요 요소를 파악하고, 다양한 인터페이스 요소에 대한 특수 데이터를 결합하면 새로운 인터페이스에 대한 구성적 일반화가 가능함을 확인합니다. 모든 벤치마크, 데이터, 체크포인트 및 코드는 오픈소스로 제공됩니다.
시사점, 한계점
•
시사점:
◦
OSWorld-G는 기존 벤치마크의 한계를 극복하는 더욱 포괄적이고 복잡한 GUI grounding 벤치마크를 제공합니다.
◦
Jedi는 GUI grounding 모델 학습에 효과적인 대규모 데이터셋을 제공합니다.
◦
Jedi를 사용한 모델은 기존 모델보다 우수한 성능을 보이며, 일반적인 기본 모델의 에이전트 기능 향상에도 기여합니다.
◦
다양한 인터페이스 요소에 대한 특수 데이터 결합을 통한 구성적 일반화 가능성을 확인했습니다.