Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Mobile-Agent-v3: Foundamental Agents for GUI Automation

Created by
  • Haebom

作者

Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan

概要

この論文では、オープンソースのGUIエージェントモデルであるGUI-Owlと、それに基づく一般目的のGUIエージェントフレームワークであるMobile-Agent-v3を紹介します。 GUI-Owlは、デスクトップおよびモバイル環境で10個のGUIベンチマークを対象に最先端のパフォーマンスを達成し、特にAndroidWorldとOSWorldでそれぞれ66.4と29.4のスコアを記録した。 Mobile-Agent-v3は、GUI-Owlをベースにパフォーマンスをさらに向上させ、AndroidWorldとOSWorldでそれぞれ73.3と37.7のスコアを達成し、オープンソースのGUIエージェントフレームワーク分野の新たな最高性能を記録した。 GUI-Owlは、大規模な環境インフラストラクチャ、さまざまな基本エージェント機能、スケーラブルな環境強化学習という3つのコアイノベーションを統合しています。大規模な環境インフラストラクチャは、Android、Ubuntu、macOS、Windowsを含むクラウドベースの仮想環境を提供し、さまざまなデータパイプラインをサポートし、手動のコメント操作を減らします。さまざまな基本的なエージェント機能は、UIのグループ化、計画、アクションセマンティックス、推論パターンを統合してエンドツーエンドの意思決定をサポートします。スケーラブルな環境強化学習は、完全非同期訓練によって実環境との整合性を高め、Trajectory-aware Relative Policy Optimization(TRPO)を通じてOSWorldで34.9のスコアを達成しました. GUI-OwlとMobile-Agent-v3はhttps://github.com/X-PLUG/MobileAgentでオープンソースとして公開されました。

Takeaways、Limitations

Takeaways:
オープンソースのGUIエージェントモデルとフレームワークの分野で新しい最高のパフォーマンスを達成。
大規模な環境インフラストラクチャ、さまざまな基本的なエージェント機能、スケーラブルな強化学習フレームワークの効果を証明します。
自動化されたデータ生成と検証による効率的なデータ収集と学習方法の提示
さまざまなプラットフォーム(Android、Ubuntu、macOS、Windows)のサポート。
モジュラー設計によるマルチエージェントシステムにおける利用可能性の提示
Limitations:
ベンチマークの種類と数が限られている可能性があります。さまざまなGUI環境とタスクの一般化パフォーマンス検証が必要です。
実際の世界における複雑なGUIインタラクションのためのロバストネスのさらなる評価が必要です。
TRPOなどの特定のアルゴリズムのパフォーマンスの分析が不足している可能性があります。他の強化学習アルゴリズムとの比較分析が必要
モデルの解釈性と説明の可能性に関する研究が不足している可能性があります。
👍