Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mobile-Agent-v3: Foundamental Agents for GUI Automation

Created by
  • Haebom

저자

Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan

개요

본 논문은 오픈소스 GUI 에이전트 모델인 GUI-Owl과 이를 기반으로 한 일반 목적 GUI 에이전트 프레임워크인 Mobile-Agent-v3을 소개한다. GUI-Owl은 데스크탑 및 모바일 환경에서 10개의 GUI 벤치마크를 대상으로 최첨단 성능을 달성하며, 특히 AndroidWorld와 OSWorld에서 각각 66.4와 29.4의 점수를 기록했다. Mobile-Agent-v3는 GUI-Owl을 기반으로 성능을 더욱 향상시켜 AndroidWorld와 OSWorld에서 각각 73.3과 37.7의 점수를 달성, 오픈소스 GUI 에이전트 프레임워크 분야의 새로운 최고 성능을 기록했다. GUI-Owl은 대규모 환경 인프라, 다양한 기본 에이전트 기능, 확장 가능한 환경 강화 학습이라는 세 가지 핵심 혁신을 통합한다. 대규모 환경 인프라는 Android, Ubuntu, macOS, Windows를 아우르는 클라우드 기반 가상 환경을 제공하며, 다양한 데이터 파이프라인을 지원하고 수동 주석 작업을 줄인다. 다양한 기본 에이전트 기능은 UI grounding, 계획, 액션 의미론, 추론 패턴을 통합하여 종단 간 의사 결정을 지원한다. 확장 가능한 환경 강화 학습은 완전 비동기식 훈련을 통해 실제 환경과의 정합성을 높이며, Trajectory-aware Relative Policy Optimization (TRPO)를 통해 OSWorld에서 34.9의 점수를 달성했다. GUI-Owl과 Mobile-Agent-v3는 https://github.com/X-PLUG/MobileAgent 에서 오픈소스로 공개되었다.

시사점, 한계점

시사점:
오픈소스 GUI 에이전트 모델 및 프레임워크 분야에서 새로운 최고 성능을 달성.
대규모 환경 인프라, 다양한 기본 에이전트 기능, 확장 가능한 강화 학습 프레임워크의 효과를 증명.
자동화된 데이터 생성 및 검증을 통한 효율적인 데이터 수집 및 학습 방식 제시.
다양한 플랫폼(Android, Ubuntu, macOS, Windows) 지원.
모듈식 설계를 통해 다중 에이전트 시스템에서의 활용 가능성 제시.
한계점:
벤치마크의 종류와 수가 제한적일 수 있음. 다양한 GUI 환경과 작업에 대한 일반화 성능 검증 필요.
실제 세계의 복잡한 GUI 상호 작용에 대한 로버스트니스(Robustness)에 대한 추가적인 평가 필요.
TRPO 등 특정 알고리즘의 성능에 대한 분석이 부족할 수 있음. 다른 강화 학습 알고리즘과의 비교 분석 필요.
모델의 해석성 및 설명 가능성에 대한 연구가 부족할 수 있음.
👍