Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

D-GARA: A Dynamic Benchmarking Framework for GUI Agent Robustness in Real-World Anomalies

Created by
  • Haebom
Category
Empty

저자

Sen Chen, Tong Zhao, Yi Bin, Fei Ma, Wenqi Shao, Zheng Wang

개요

인간 수준의 GUI 조작 능력을 갖춘 지능형 에이전트 개발은 인공 일반 지능(AGI)으로 가는 중요한 단계입니다. 기존 데이터셋과 벤치마크는 정적이고 이상화되어 실제 환경의 복잡성과 예측 불가능성을 반영하지 못합니다. 특히 이상 현상(anomalies)의 존재를 고려하지 않습니다. 이러한 연구 격차를 해소하기 위해, 실제 이상 현상에 대한 Android GUI 에이전트의 강건성을 평가하기 위한 동적 벤치마킹 프레임워크인 D-GARA를 제안합니다. D-GARA는 권한 대화 상자, 배터리 경고, 업데이트 프롬프트와 같은 에이전트가 실제로 직면하는 다양한 이상 현상을 도입합니다. D-GARA 프레임워크를 기반으로, 일반적인 Android 애플리케이션에 내장된 이상 현상을 포함하는 벤치마크를 구축하고 주석을 달아 연구 커뮤니티를 지원합니다. 종합적인 실험 결과는 최첨단 GUI 에이전트가 이상 현상이 풍부한 환경에 노출될 때 성능이 크게 저하됨을 보여주며, 강건성 인식 학습의 필요성을 강조합니다. D-GARA는 모듈식이며 확장 가능하여 새로운 작업, 이상 현상 유형 및 상호 작용 시나리오를 원활하게 통합하여 특정 평가 목표를 충족합니다.

시사점, 한계점

시사점:
실제 환경의 이상 현상(예: 권한 대화 상자, 배터리 경고)을 고려한 동적 벤치마킹 프레임워크인 D-GARA를 제안하여 GUI 에이전트의 강건성 평가에 기여.
D-GARA를 통해 최첨단 GUI 에이전트의 성능 저하를 확인, 강건성 인식 학습의 필요성을 강조.
모듈식이며 확장 가능한 D-GARA는 새로운 작업, 이상 현상 유형 및 상호 작용 시나리오를 통합하여 특정 평가 목표 달성 가능.
한계점:
논문 자체에서 한계점에 대한 직접적인 언급은 없음.
👍