Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Chain-of-Ground: Improving GUI Grounding via Iterative Reasoning and Reference Feedback

Created by
  • Haebom
Category
Empty

저자

Aiden Yiliu Li, Bizhi Yu, Daoan Lei, Tianhe Ren, Shilong Liu

개요

GUI grounding은 자연어 지시 사항을 복잡한 사용자 인터페이스의 정확한 영역에 정렬하는 것을 목표로 합니다. 고급 멀티모달 대규모 언어 모델은 시각적 GUI grounding에 강점을 보이지만, 작거나 시각적으로 유사한 대상 및 실제 레이아웃의 모호성에 여전히 어려움을 겪습니다. 본 연구에서는 멀티모달 대규모 언어 모델을 사용하여 반복적인 시각적 추론 및 개선을 수행하는, 학습이 필요 없는 다단계 grounding 프레임워크인 Chain of Ground (CoG)를 제시합니다. 직접적인 예측 대신, 모델은 점진적으로 가설을 반영하고 조정하여 더욱 정확하고 해석 가능한 위치 지정을 수행합니다. 본 접근 방식은 ScreenSpot Pro 벤치마크에서 68.4%의 정확도를 달성하여 4.8% 향상을 보였습니다. 실제 세계 일반화를 측정하기 위해, 흐림 및 마스킹과 같은 시각적 왜곡이 있는 420개의 산업 제어 패널로 구성된 TPanel UI 데이터 세트를 도입했습니다. TPanel UI에서 Chain of Ground는 강력한 기준선인 Qwen3 VL 235B보다 6.9% 향상된 성능을 보여 실제 및 디지털 인터페이스 전반에서 다단계 학습 없는 grounding의 효과를 입증했습니다.

시사점, 한계점

시사점:
학습이 필요 없는 다단계 grounding 프레임워크인 Chain of Ground (CoG) 제안.
ScreenSpot Pro 벤치마크에서 4.8% 성능 향상.
실제 세계 일반화를 위한 TPanel UI 데이터 세트 도입.
TPanel UI에서 강력한 baseline보다 6.9% 성능 향상.
구조화된 반복적 개선을 통한 grounding 잠재력 확보 방향 제시.
한계점:
논문에 구체적인 한계점 언급 없음. (제시된 내용은 대부분 결과 및 방법론의 장점을 강조)
👍