MEGA-GUI: Multi-stage Enhanced Grounding Agents for GUI Elements
Created by
Haebom
Category
Empty
저자
SeokJoo Kwak, Jihoon Kim, Boyoun Kim, Jung Jae Yoon, Wooseok Jang, Jeonghoon Hong, Jaeho Yang, Yeong-Dae Kwon
MEGA-GUI: Multi-Stage Grounding for Graphical User Interfaces
개요
본 논문은 자연어 지시를 화면 좌표에 매핑하는 GUI grounding task를 위한 새로운 multi-stage framework인 MEGA-GUI를 소개합니다. MEGA-GUI는 coarse ROI 선택과 fine-grained element grounding으로 grounding을 분리하고, 전문화된 vision-language agent를 사용하여 구성됩니다. 공간적 희석을 완화하는 양방향 ROI 줌 알고리즘과 의미적 모호성을 줄이는 context-aware rewriting agent를 특징으로 합니다. 시각적으로 밀집된 ScreenSpot-Pro 벤치마크에서 73.18%의 정확도를, 의미적으로 복잡한 OSWorld-G 벤치마크에서 68.63%의 정확도를 달성하여 기존 결과를 능가했습니다.
시사점, 한계점
•
시사점:
◦
Modular 구조를 통해 시각적 혼란과 모호한 지시사항에 대한 강건성을 향상시킴.
◦
ROI 선택과 element grounding 분리를 통해 정확도 향상.
◦
Vision-language 모델의 상호 보완적인 강점과 약점을 활용.
◦
ScreenSpot-Pro 및 OSWorld-G 벤치마크에서 기존 SOTA 달성.
◦
Code 및 Grounding Benchmark Toolkit (GBT) 공개를 통해 재현성 확보.