본 논문은 대규모 언어 모델(LLM) 기반 그래픽 사용자 인터페이스(GUI) 에이전트 평가 벤치마크의 부족을 해결하기 위해, 인과 경로(Causal Pathways) 원칙에 기반한 새로운 벤치마크인 \Benchmark를 제안한다. \Benchmark는 복잡한 작업을 프로그램으로 검증 가능한 원자 단계의 시퀀스로 구조화하여 엄격하고 완전 자동화된 재현 가능한 평가 기준을 제공한다. 또한, 장기간 작업에 최적화된 계층적 에이전트 아키텍처인 \Agent를 개발하여 다양하고 자기 수정적인 LLM 상호작용 패턴을 포착하는 고품질의 사람이 검증한 데이터셋을 생성하고, 이를 이용하여 Qwen2.5-VL-7B 모델에 강화 학습 미세 조정(RFT)을 수행하였다. 실험 결과, \Benchmark는 최첨단 LLM에도 상당한 어려움을 제시하며, 최고 성능 모델인 Claude-sonnet-4조차 가중 경로 성공률(WPSR)이 34.6%에 불과함을 보였다. RFT는 소규모 모델의 GUI 실행 능력을 향상시켰지만(WPSR이 3.3%에서 10.8%로 증가), 복잡한 시나리오에서는 성능이 크게 저하되었는데, 이는 복잡한 작업에서 소규모 모델의 고유한 성능 한계를 보여준다. 본 연구는 엄격한 평가 기준과 고품질 데이터셋을 제공하여 GUI 에이전트의 미래 개발을 위한 지침을 제시한다.