ProBench: A Comprehensive Mobile GUI Benchmark for Evaluating GUI Agents
개요
본 논문은 인공지능과 인터랙티브 기술의 발전으로 주목받는 GUI 에이전트의 성능 평가를 위한 새로운 벤치마크, ProBench를 소개한다. 기존 벤치마크가 최종 화면 상태만으로 평가하는 한계를 극복하기 위해, ProBench는 프로세스 관련 태스크를 포함하고, 정확한 프로세스 정보를 제공하는 Process Provider를 통해 에이전트의 성능을 정밀하게 평가한다. 200개 이상의 다양한 GUI 태스크를 포함하며, 대규모 일반 모델 및 GUI 특화 모델 모두에서 상당한 한계를 발견했다.