Sign In

AutoEval: A Practical Framework for Autonomous Evaluation of Mobile Agents

Created by
  • Haebom
Category
Empty

저자

Jiahui Sun, Zhichao Hua, Yubin Xia

개요

AutoEval은 모바일 에이전트의 자동 평가 프레임워크로, 작업 보상 신호를 정의하고 평가 코드를 구현하는 데 필요한 많은 수동 작업 없이 에이전트를 평가합니다. 구조화된 하위 상태 표현(Structured Substate Representation)을 사용하여 에이전트 실행 중 UI 상태 변화를 설명하고, 자동으로 작업 보상 신호를 생성합니다. 자동으로 생성된 작업 보상 신호를 기반으로 에이전트의 성능을 자율적으로 평가하는 Judge System을 활용합니다. 작업 설명만 제공하면 추가적인 수동 작업 없이 세분화된 성능 피드백과 함께 에이전트를 평가할 수 있습니다. 프로토타입 구현 결과, 자동 생성된 작업 보상 신호는 사람이 주석을 단 보상 신호의 93% 이상을 커버했으며, Judge System은 94%의 정확도를 달성했습니다. 최첨단 모바일 에이전트를 평가하여 성능 특성과 한계에 대한 자세한 통찰력을 제공합니다.

시사점, 한계점

시사점:
모바일 에이전트 평가의 자동화를 통해 개발 및 실제 적용 가능성 향상.
수동 작업 감소로 평가 효율성 증대.
세분화된 성능 피드백 제공으로 에이전트 개선에 도움.
최첨단 모바일 에이전트의 성능 특성과 한계에 대한 새로운 통찰력 제공.
한계점:
현재는 UI 상태 변화에 기반한 평가이므로, UI를 통해 상태가 표현되지 않는 작업에는 적용이 어려울 수 있음.
Structured Substate Representation 및 Judge System의 일반화 가능성 및 다양한 유형의 모바일 에이전트 및 작업에 대한 적용성에 대한 추가적인 연구가 필요함.
93% 및 94%의 정확도는 완벽하지 않으므로, 오류 발생 가능성을 고려해야 함.
👍