Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GUI Agents: A Survey

Created by
  • Haebom

저자

Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia, Xintong Li, Jing Shi, Hongjie Chen, Viet Dac Lai, Zhouhang Xie, Sungchul Kim, Ruiyi Zhang, Tong Yu, Mehrab Tanjim, Nesreen K. Ahmed, Puneet Mathur, Seunghyun Yoon, Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt

개요

본 논문은 대규모 기초 모델 기반 그래픽 사용자 인터페이스(GUI) 에이전트에 대한 종합적인 조사를 제공합니다. GUI 에이전트는 클릭, 타이핑, 탐색 등의 인간 행동을 모방하여 다양한 플랫폼에서 디지털 시스템이나 소프트웨어 애플리케이션과 상호 작용하는 자동화된 시스템입니다. 논문에서는 GUI 에이전트의 벤치마크, 평가 지표, 아키텍처, 학습 방법을 분류하고, 지각, 추론, 계획, 행동 능력을 설명하는 통합 프레임워크를 제안합니다. 또한 중요한 미해결 과제와 미래 방향을 제시하며, 연구자와 실무자들이 현재의 진전, 기술, 벤치마크 및 미해결 문제를 이해하는 데 도움을 줍니다.

시사점, 한계점

시사점:
GUI 에이전트 분야의 종합적인 조사 및 분석 제공
GUI 에이전트의 통합 프레임워크 제시 (지각, 추론, 계획, 행동)
현재 기술 수준, 벤치마크, 미해결 과제에 대한 명확한 이해 제공
미래 연구 방향 제시
한계점:
본 논문 자체가 특정 GUI 에이전트 시스템을 제시하거나 실험적으로 검증하는 것은 아님. 기존 연구의 종합 및 분석에 집중.
GUI 에이전트의 윤리적, 사회적 영향에 대한 논의 부족.
급속하게 발전하는 분야이므로, 발표 이후 새로운 연구 결과 반영의 어려움.
👍