Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AUTO-Explorer: Automated Data Collection for GUI Agent

Created by
  • Haebom
Category
Empty

저자

Xiangwu Guo, Difei Gao, Mike Zheng Shou

개요

본 논문은 GUI 에이전트의 발전을 위해 GUI 데이터를 효율적으로 수집하는 자동화된 방법인 Auto-Explorer를 제안한다. Auto-Explorer는 최소한의 주석 비용으로 GUI 환경을 자율적으로 탐색하고 데이터를 수집하며, UIXplore 벤치마크를 통해 탐색 품질을 평가한다. 수집된 데이터를 사용하여 멀티모달 대규모 언어 모델(MLLM)을 미세 조정하고, GUI 요소 기반 테스트 세트를 구축하여 탐색 전략의 효과를 평가한다. 실험 결과, Auto-Explorer가 MLLM의 성능을 향상시키는 데 효과적임을 확인했다.

시사점, 한계점

시사점:
GUI 데이터 수집의 어려움을 해결하기 위한 새로운 자동화된 방법론 제시.
Auto-Explorer를 통해 개인화된 시나리오에서 MLLM의 빠른 적응을 가능하게 함.
UIXplore 벤치마크를 통해 탐색 전략의 품질 평가 및 개선 가능성 제시.
MLLM의 GUI 이해 능력 향상에 기여.
한계점:
Common Crawl에 없는 데스크톱 소프트웨어 또는 신규 웹사이트에 대한 데이터 수집에 초점을 맞춤.
아직 구체적인 Auto-Explorer의 탐색 메커니즘이나 UIXplore 벤치마크의 세부 내용에 대한 정보 부족.
MLLM의 성능 향상에 대한 정량적인 결과 및 구체적인 성능 지표에 대한 정보 부족.
👍