Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GUICourse: From General Vision Language Models to Versatile GUI Agents

Created by
  • Haebom

저자

Wentong Chen, Junbo Cui, Jinyi Hu, Yujia Qin, Junjie Fang, Yue Zhao, Chongyi Wang, Jun Liu, Guirong Chen, Yupeng Huo, Yuan Yao, Yankai Lin, Zhiyuan Liu, Maosong Sun

개요

본 논문은 GUI 기반의 인간-컴퓨터 상호작용을 위한 다재다능한 에이전트 개발을 목표로, Vision Language Model (VLM)의 한계를 극복하기 위한 새로운 데이터셋 GUICourse를 제시합니다. GUICourse는 GUIEnv, GUIAct, GUIChat 세 가지 데이터셋으로 구성되어 있으며, 각각 VLM의 OCR 및 grounding 능력 향상, GUI 구성 요소 및 상호작용에 대한 지식 풍부화에 기여합니다. 실험 결과, 제안된 GUI 에이전트는 기존 VLM보다 향상된 GUI 작업 수행 능력을 보여주었으며, 소규모 모델(3.1B 파라미터)에서도 단일 및 다단계 GUI 작업에 효과적으로 작동함을 확인했습니다. 또한, ablation study를 통해 에이전트 학습 단계의 다양한 요소 분석을 수행했습니다. 소스 코드와 데이터셋은 공개되어 있습니다.

시사점, 한계점

시사점:
VLM 기반 GUI 에이전트 성능 향상을 위한 효과적인 데이터셋 GUICourse 제시.
OCR 및 grounding 능력 향상과 GUI 지식 확장을 통한 실용적인 GUI 에이전트 개발 가능성 제시.
소규모 모델에서도 효과적인 GUI 작업 수행 가능성 확인.
공개된 데이터셋과 소스 코드를 통한 후속 연구 활성화 기대.
한계점:
데이터셋의 규모 및 다양성에 대한 추가적인 연구 필요.
실제 GUI 환경의 복잡성과 다양성을 완벽히 반영하지 못할 가능성.
특정 유형의 GUI 또는 작업에 대한 편향 가능성.
Ablation study의 범위와 심도에 대한 추가적인 고려 필요.
👍