Sign In

Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents

Created by
  • Haebom
Category
Empty

저자

Boyu Gou, Ruohan Wang, Boyuan Zheng, Yanan Xie, Cheng Chang, Yiheng Shu, Huan Sun, Yu Su

개요

본 논문은 그래픽 사용자 인터페이스(GUI) 에이전트의 성능 향상을 위해 시각적 기반 접근 방식을 제시합니다. 기존의 텍스트 기반 접근 방식(HTML, 접근성 트리 등)이 가지는 노이즈, 불완전성, 높은 계산 비용 등의 문제점을 해결하기 위해, 사람처럼 시각적으로 환경을 인지하고 픽셀 단위로 GUI 조작을 수행하는 에이전트를 제안합니다. 이를 위해 다양한 GUI 요소에 대한 언어적 설명을 해당 요소의 좌표로 정확하게 매핑하는 시각적 기반 모델을 개발합니다. 130만 개의 스크린샷과 1천만 개의 GUI 요소 및 설명으로 구성된 대규모 데이터셋을 이용하여 UGround라는 강력한 시각적 기반 모델을 학습시켰으며, 여러 벤치마크에서 기존 최첨단 모델들을 상당한 차이로 능가하는 성능을 보임을 실험적으로 증명합니다.

시사점, 한계점

시사점:
시각적 기반 모델을 이용한 GUI 에이전트의 효율성과 실현 가능성을 입증.
텍스트 기반 정보 없이 시각 정보만으로도 기존 최첨단 에이전트를 능가하는 성능 달성.
대규모 GUI 시각적 기반 데이터셋 구축 및 공개.
사람과 같은 방식으로 디지털 환경을 탐색하는 GUI 에이전트 개발의 가능성 제시.
한계점:
현재는 웹 기반 합성 데이터에 의존하는데, 실제 세계의 다양한 GUI 환경에 대한 일반화 성능은 추가 연구가 필요.
시각적 정보만을 사용하기 때문에, 텍스트 기반 정보를 활용하는 경우에 비해 정보 처리에 한계가 있을 수 있음.
UGround 모델의 성능은 사용된 데이터셋의 질에 크게 의존할 수 있음. 데이터셋의 편향성이 모델 성능에 영향을 미칠 수 있음.
👍