GUI-AIMA는 효율적인 GUI grounding을 위해 attention 기반 및 좌표가 없는 지도 학습 fine-tuning 프레임워크를 제안합니다. MLLMs의 내재된 다중 모드 attention을 패치별 grounding 신호와 정렬합니다. 이러한 신호는 단순화된 query-visual attention 행렬의 multi-head aggregation을 통해 다양한 사용자 지침에 맞게 적응적으로 계산됩니다. 좌표가 없는 방식으로 zoom-in 단계를 쉽게 통합할 수 있습니다. 85,000개의 스크린샷만으로 훈련된 GUI-AIMA-3B는 뛰어난 데이터 효율성을 보여주며 MLLMs의 고유한 grounding 능력을 가볍게 훈련하여 발현할 수 있음을 입증했습니다. ScreenSpot-Pro에서 58.6%, OSWorld-G에서 62.2%의 평균 정확도를 달성하여 3B 모델 중 최고 성능을 기록했습니다.
시사점, 한계점
•
시사점:
◦
MLLMs의 내재된 attention 메커니즘을 활용하여 GUI grounding 문제를 효과적으로 해결했습니다.
◦
좌표 생성이 아닌 패치 선택 방식을 사용하여 계산 효율성을 높였습니다.
◦
소량의 데이터로 훈련하여 데이터 효율성을 입증했습니다.
◦
3B 모델임에도 불구하고 SOTA 성능을 달성했습니다.
◦
zoom-in 단계를 플러그 앤 플레이 방식으로 쉽게 통합할 수 있습니다.
•
한계점:
◦
구체적인 한계점은 논문에서 명시적으로 언급되지 않았습니다. (하지만, 3B 모델로 SOTA를 달성했으므로, 더 큰 모델과의 성능 비교에 대한 여지는 있을 수 있습니다.)