인간 수준의 GUI 조작 능력을 갖춘 지능형 에이전트 개발은 인공 일반 지능(AGI)으로 가는 중요한 단계입니다. 기존 데이터셋과 벤치마크는 정적이고 이상화되어 실제 환경의 복잡성과 예측 불가능성을 반영하지 못합니다. 특히 이상 현상(anomalies)의 존재를 고려하지 않습니다. 이러한 연구 격차를 해소하기 위해, 실제 이상 현상에 대한 Android GUI 에이전트의 강건성을 평가하기 위한 동적 벤치마킹 프레임워크인 D-GARA를 제안합니다. D-GARA는 권한 대화 상자, 배터리 경고, 업데이트 프롬프트와 같은 에이전트가 실제로 직면하는 다양한 이상 현상을 도입합니다. D-GARA 프레임워크를 기반으로, 일반적인 Android 애플리케이션에 내장된 이상 현상을 포함하는 벤치마크를 구축하고 주석을 달아 연구 커뮤니티를 지원합니다. 종합적인 실험 결과는 최첨단 GUI 에이전트가 이상 현상이 풍부한 환경에 노출될 때 성능이 크게 저하됨을 보여주며, 강건성 인식 학습의 필요성을 강조합니다. D-GARA는 모듈식이며 확장 가능하여 새로운 작업, 이상 현상 유형 및 상호 작용 시나리오를 원활하게 통합하여 특정 평가 목표를 충족합니다.