본 논문은 GUI 기반의 인간-컴퓨터 상호작용을 위한 다재다능한 에이전트 개발을 목표로, Vision Language Model (VLM)의 한계를 극복하기 위한 새로운 데이터셋 GUICourse를 제시합니다. GUICourse는 GUIEnv, GUIAct, GUIChat 세 가지 데이터셋으로 구성되어 있으며, 각각 VLM의 OCR 및 grounding 능력 향상, GUI 구성 요소 및 상호작용에 대한 지식 풍부화에 기여합니다. 실험 결과, 제안된 GUI 에이전트는 기존 VLM보다 향상된 GUI 작업 수행 능력을 보여주었으며, 소규모 모델(3.1B 파라미터)에서도 단일 및 다단계 GUI 작업에 효과적으로 작동함을 확인했습니다. 또한, ablation study를 통해 에이전트 학습 단계의 다양한 요소 분석을 수행했습니다. 소스 코드와 데이터셋은 공개되어 있습니다.
시사점, 한계점
•
시사점:
◦
VLM 기반 GUI 에이전트 성능 향상을 위한 효과적인 데이터셋 GUICourse 제시.
◦
OCR 및 grounding 능력 향상과 GUI 지식 확장을 통한 실용적인 GUI 에이전트 개발 가능성 제시.