Mobile-Agent-v3: Foundamental Agents for GUI Automation
Created by
Haebom
저자
Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
개요
본 논문은 오픈소스 GUI 에이전트 모델인 GUI-Owl과 이를 기반으로 한 일반 목적 GUI 에이전트 프레임워크인 Mobile-Agent-v3을 소개한다. GUI-Owl은 데스크탑 및 모바일 환경에서 10개의 GUI 벤치마크를 대상으로 최첨단 성능을 달성하며, 특히 AndroidWorld와 OSWorld에서 각각 66.4와 29.4의 점수를 기록했다. Mobile-Agent-v3는 GUI-Owl을 기반으로 성능을 더욱 향상시켜 AndroidWorld와 OSWorld에서 각각 73.3과 37.7의 점수를 달성, 오픈소스 GUI 에이전트 프레임워크 분야의 새로운 최고 성능을 기록했다. GUI-Owl은 대규모 환경 인프라, 다양한 기본 에이전트 기능, 확장 가능한 환경 강화 학습이라는 세 가지 핵심 혁신을 통합한다. 대규모 환경 인프라는 Android, Ubuntu, macOS, Windows를 아우르는 클라우드 기반 가상 환경을 제공하며, 다양한 데이터 파이프라인을 지원하고 수동 주석 작업을 줄인다. 다양한 기본 에이전트 기능은 UI grounding, 계획, 액션 의미론, 추론 패턴을 통합하여 종단 간 의사 결정을 지원한다. 확장 가능한 환경 강화 학습은 완전 비동기식 훈련을 통해 실제 환경과의 정합성을 높이며, Trajectory-aware Relative Policy Optimization (TRPO)를 통해 OSWorld에서 34.9의 점수를 달성했다. GUI-Owl과 Mobile-Agent-v3는 https://github.com/X-PLUG/MobileAgent 에서 오픈소스로 공개되었다.