Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

Created by
  • Haebom

저자

Tianbao Xie, Jiaqi Deng, Xiaochuan Li, Junlin Yang, Haoyuan Wu, Jixuan Chen, Wenjing Hu, Xinyuan Wang, Yuhui Xu, Zekun Wang, Yiheng Xu, Junli Wang, Doyen Sahoo, Tao Yu, Caiming Xiong

개요

본 논문은 그래픽 사용자 인터페이스(GUI) grounding, 즉 자연어 명령어를 GUI 상의 특정 행동으로 매핑하는 능력에 초점을 맞추고 있습니다. 기존 벤치마크들이 단순한 참조 표현에만 집중하여 실제 상호작용의 복잡성을 제대로 반영하지 못하는 한계를 지적하며, 이를 해결하기 위해 다양한 작업 유형(텍스트 매칭, 요소 인식, 레이아웃 이해, 정밀 조작 등)을 포함하는 564개의 세부 주석이 달린 샘플로 구성된 포괄적인 벤치마크 OSWorld-G를 제시합니다. 또한, 다양한 관점에서 작업을 분리하여 4백만 개의 예제를 포함하는 대규모 컴퓨터 사용 grounding 데이터셋 Jedi를 합성하고 공개합니다. Jedi를 사용하여 훈련된 다중 스케일 모델은 ScreenSpot-v2, ScreenSpot-Pro, 그리고 OSWorld-G에서 기존 접근 방식을 능가하는 성능을 보여줍니다. 더 나아가, Jedi를 이용한 grounding 향상이 복잡한 컴퓨터 작업에서 기초 모델의 에이전트 능력을 5%에서 27%까지 향상시킨다는 것을 보여줍니다. 마지막으로, ablation study를 통해 grounding 성능에 기여하는 주요 요소를 파악하고, 다양한 인터페이스 요소에 대한 특수 데이터를 결합하면 새로운 인터페이스에 대한 구성적인 일반화가 가능함을 확인합니다. 모든 벤치마크, 데이터, 체크포인트 및 코드는 오픈소스로 제공됩니다.

시사점, 한계점

시사점:
실제 세계의 복잡한 GUI 상호작용을 반영하는 새로운 벤치마크 OSWorld-G 제시
대규모 GUI grounding 데이터셋 Jedi 공개
Jedi를 이용한 모델이 기존 방식보다 우수한 성능을 보임
향상된 grounding이 기초 모델의 에이전트 능력을 크게 향상시킴
다양한 인터페이스 요소에 대한 특수 데이터 결합을 통한 구성적인 일반화 가능성 확인
모든 자원의 오픈소스 공개
한계점:
OSWorld-G 데이터셋의 규모가 아직 제한적일 수 있음 (564개 샘플)
Jedi 데이터셋의 생성 방식 및 품질에 대한 추가적인 검증 필요
실제 사용자 인터페이스의 다양성을 완벽하게 반영하지 못할 가능성 존재
특정 유형의 인터페이스나 작업에 편향될 가능성 존재
👍