Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MEGA-GUI: Multi-stage Enhanced Grounding Agents for GUI Elements

Created by
  • Haebom
Category
Empty

저자

SeokJoo Kwak, Jihoon Kim, Boyoun Kim, Jung Jae Yoon, Wooseok Jang, Jeonghoon Hong, Jaeho Yang, Yeong-Dae Kwon

MEGA-GUI: Multi-Stage Grounding for Graphical User Interfaces

개요

본 논문은 자연어 지시를 화면 좌표에 매핑하는 GUI grounding task를 위한 새로운 multi-stage framework인 MEGA-GUI를 소개합니다. MEGA-GUI는 coarse ROI 선택과 fine-grained element grounding으로 grounding을 분리하고, 전문화된 vision-language agent를 사용하여 구성됩니다. 공간적 희석을 완화하는 양방향 ROI 줌 알고리즘과 의미적 모호성을 줄이는 context-aware rewriting agent를 특징으로 합니다. 시각적으로 밀집된 ScreenSpot-Pro 벤치마크에서 73.18%의 정확도를, 의미적으로 복잡한 OSWorld-G 벤치마크에서 68.63%의 정확도를 달성하여 기존 결과를 능가했습니다.

시사점, 한계점

시사점:
Modular 구조를 통해 시각적 혼란과 모호한 지시사항에 대한 강건성을 향상시킴.
ROI 선택과 element grounding 분리를 통해 정확도 향상.
Vision-language 모델의 상호 보완적인 강점과 약점을 활용.
ScreenSpot-Pro 및 OSWorld-G 벤치마크에서 기존 SOTA 달성.
Code 및 Grounding Benchmark Toolkit (GBT) 공개를 통해 재현성 확보.
한계점:
논문 내 한계점 언급 없음.
👍