Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation

Created by
  • Haebom

저자

Jingxuan Chen, Derek Yuen, Bin Xie, Yuhao Yang, Gongwei Chen, Zhihao Wu, Li Yixing, Xurui Zhou, Weiwen Liu, Shuai Wang, Kaiwen Zhou, Rui Shao, Liqiang Nie, Yasheng Wang, Jianye Hao, Jun Wang, Kun Shao

개요

본 논문은 스마트폰 앱을 제어하는 데 사용되는 다중 모달 대규모 언어 모델(MLLM) 기반 스마트폰 에이전트를 평가하기 위한 종합적인 벤치마크인 SPA-Bench를 제시합니다. SPA-Bench는 영어와 중국어로 된 다양한 작업 세트, 다양한 에이전트를 통합할 수 있는 플러그 앤 플레이 프레임워크, 작업 완료 및 자원 소비와 관련된 7가지 지표를 포함하는 자동 평가 파이프라인을 제공합니다. 실험 결과, 모바일 사용자 인터페이스 해석, 액션 접지, 메모리 유지 및 실행 비용과 같은 과제들이 드러났으며, 향후 연구 방향을 제시합니다.

시사점, 한계점

시사점:
스마트폰 에이전트의 성능을 다각적으로 평가할 수 있는 종합적인 벤치마크 SPA-Bench 제공.
다양한 작업(시스템 및 타사 앱, 영어 및 중국어 지원)과 다수의 에이전트(10개 이상) 지원을 통한 객관적인 비교 가능.
자동화된 평가 파이프라인을 통해 효율적인 성능 측정 및 분석 가능.
스마트폰 에이전트 개발의 주요 과제(UI 해석, 액션 접지, 메모리, 실행 비용 등)를 제시하고 향후 연구 방향 제시.
한계점:
현재 지원하는 언어가 영어와 중국어에 국한됨.
더욱 다양한 유형의 스마트폰 및 앱 환경을 고려할 필요가 있음.
평가 지표의 추가적인 개선 및 보완 필요.
👍