AutoEval은 모바일 에이전트의 자동 평가 프레임워크로, 작업 보상 신호를 정의하고 평가 코드를 구현하는 데 필요한 많은 수동 작업 없이 에이전트를 평가합니다. 구조화된 하위 상태 표현(Structured Substate Representation)을 사용하여 에이전트 실행 중 UI 상태 변화를 설명하고, 자동으로 작업 보상 신호를 생성합니다. 자동으로 생성된 작업 보상 신호를 기반으로 에이전트의 성능을 자율적으로 평가하는 Judge System을 활용합니다. 작업 설명만 제공하면 추가적인 수동 작업 없이 세분화된 성능 피드백과 함께 에이전트를 평가할 수 있습니다. 프로토타입 구현 결과, 자동 생성된 작업 보상 신호는 사람이 주석을 단 보상 신호의 93% 이상을 커버했으며, Judge System은 94%의 정확도를 달성했습니다. 최첨단 모바일 에이전트를 평가하여 성능 특성과 한계에 대한 자세한 통찰력을 제공합니다.