Sign In

Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems

Created by
  • Haebom
Category
Empty

저자

Fei Tang, Yongliang Shen, Hang Zhang, Siqi Chen, Guiyang Hou, Wenqi Zhang, Wenqiao Zhang, Kaitao Song, Weiming Lu, Yueting Zhuang

개요

본 논문은 인간의 이중 시스템 인지(직관적 판단과 분석적 이해)에서 영감을 받아, 복잡한 GUI(Graphical User Interface) 환경에서 자연어 명령을 기반으로 인터페이스 요소를 정확하게 찾는 새로운 프레임워크인 Focus를 제안합니다. 기존의 GUI grounding 시스템이 단순한 예측에 의존하여 복잡한 계층 구조를 이해하는 데 어려움을 겪는다는 점을 지적하며, Focus는 빠른 예측과 체계적인 분석을 결합하여 작업 복잡도에 따라 처리 방식을 동적으로 전환하는 적응형 시스템을 구현합니다. 인터페이스 요약, 시각적 집중 분석, 정확한 좌표 예측의 세 단계로 구성된 접근 방식을 통해 계층적 구조와 시각적 관계를 체계적으로 이해하고, 적은 양의 학습 데이터(300K)와 상대적으로 작은 모델 크기(2B parameter)로 기존 방법보다 우수한 성능(ScreenSpot 77.4%, ScreenSpot-Pro 13.3% 향상)을 달성함을 실험을 통해 보여줍니다.

시사점, 한계점

시사점:
인간의 이중 시스템 인지를 모방한 GUI grounding 프레임워크의 효과성을 입증.
복잡한 GUI 환경에서의 자연어 이해 및 인터페이스 요소 위치 파악 성능 향상.
적은 데이터와 모델 크기로 높은 성능 달성 가능성 제시.
복잡한 GUI 상호작용 시나리오 개선에 대한 잠재력 제시.
한계점:
ScreenSpot-Pro 데이터셋에서의 성능 향상폭이 여전히 상대적으로 낮음. 더욱 복잡한 인터페이스에 대한 일반화 성능 개선 필요.
사용된 데이터셋의 종류와 규모에 대한 자세한 설명 부족. 다양한 유형의 GUI와 대규모 데이터셋에 대한 실험이 필요.
적응형 시스템 전환 메커니즘에 대한 자세한 설명 부족. 전환 과정의 투명성 및 최적화 방안에 대한 추가 연구 필요.
👍