Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents

Created by
  • Haebom

저자

Boyu Gou, Ruohan Wang, Boyuan Zheng, Yanan Xie, Cheng Chang, Yiheng Shu, Huan Sun, Yu Su

개요

본 논문은 그래픽 사용자 인터페이스(GUI) 에이전트의 성능 향상을 위한 시각적 기반 접근법을 제시합니다. 기존의 텍스트 기반 접근법(HTML, 접근성 트리 등)의 한계를 극복하고자, 사람처럼 시각 정보를 직접적으로 이용하여 픽셀 단위의 GUI 조작을 수행하는 에이전트를 구현합니다. 이를 위해 다양한 GUI 요소에 대한 언어적 설명을 해당 요소의 좌표로 정확하게 매핑하는 시각적 기반 모델을 제시하며, 웹 기반 합성 데이터와 LLaVA 아키텍처의 변형을 통해 효과적으로 이를 학습시키는 방법을 제시합니다. 130만 개 이상의 스크린샷에 1천만 개 이상의 GUI 요소와 해당 언어적 설명을 포함하는 대규모 데이터셋을 구축하여 UGround라는 강력한 시각적 기반 모델을 학습시켰으며, 다양한 벤치마크에서 기존 모델들을 상당히 능가하는 성능을 보임을 실험적으로 증명합니다.

시사점, 한계점

시사점:
시각적 기반 GUI 에이전트의 실현 가능성과 장점을 제시합니다.
기존 텍스트 기반 접근법의 한계를 극복하고 더욱 강력하고 효율적인 GUI 에이전트 개발의 가능성을 열었습니다.
대규모 GUI 시각적 기반 데이터셋 구축을 통해 향후 연구의 발전에 기여할 수 있습니다.
UGround 모델은 기존 최첨단 모델들을 능가하는 성능을 보이며, 시각적 정보만으로도 효과적인 GUI 제어가 가능함을 보여줍니다.
한계점:
현재는 웹 기반 GUI에 집중되어 있으며, 다양한 플랫폼과 GUI 유형으로의 확장성에 대한 추가적인 연구가 필요합니다.
시각적 정보만을 사용하기 때문에, 텍스트 정보를 활용하는 기존 접근법과의 상호 보완적인 연구가 필요할 수 있습니다.
합성 데이터를 사용했기 때문에, 실제 환경의 복잡성을 완전히 반영하지 못할 가능성이 존재합니다.
UGround 모델의 일반화 성능 및 다양한 GUI 환경에 대한 적용 가능성에 대한 추가적인 검증이 필요합니다.
👍