Sign In

GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

Created by
  • Haebom
Category
Empty

저자

Shijie Zhou, Viet Dac Lai, Hao Tan, Jihyung Kil, Wanrong Zhu, Changyou Chen, Ruiyi Zhang

개요

GUI-AIMA는 효율적인 GUI grounding을 위해 attention 기반 및 좌표가 없는 지도 학습 fine-tuning 프레임워크를 제안합니다. MLLMs의 내재된 다중 모드 attention을 패치별 grounding 신호와 정렬합니다. 이러한 신호는 단순화된 query-visual attention 행렬의 multi-head aggregation을 통해 다양한 사용자 지침에 맞게 적응적으로 계산됩니다. 좌표가 없는 방식으로 zoom-in 단계를 쉽게 통합할 수 있습니다. 85,000개의 스크린샷만으로 훈련된 GUI-AIMA-3B는 뛰어난 데이터 효율성을 보여주며 MLLMs의 고유한 grounding 능력을 가볍게 훈련하여 발현할 수 있음을 입증했습니다. ScreenSpot-Pro에서 58.6%, OSWorld-G에서 62.2%의 평균 정확도를 달성하여 3B 모델 중 최고 성능을 기록했습니다.

시사점, 한계점

시사점:
MLLMs의 내재된 attention 메커니즘을 활용하여 GUI grounding 문제를 효과적으로 해결했습니다.
좌표 생성이 아닌 패치 선택 방식을 사용하여 계산 효율성을 높였습니다.
소량의 데이터로 훈련하여 데이터 효율성을 입증했습니다.
3B 모델임에도 불구하고 SOTA 성능을 달성했습니다.
zoom-in 단계를 플러그 앤 플레이 방식으로 쉽게 통합할 수 있습니다.
한계점:
구체적인 한계점은 논문에서 명시적으로 언급되지 않았습니다. (하지만, 3B 모델로 SOTA를 달성했으므로, 더 큰 모델과의 성능 비교에 대한 여지는 있을 수 있습니다.)
👍