Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment

Created by
  • Haebom

作者

Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu

概要

V-DroidはモバイルGUI作業自動化エージェントで、既存のLLMを利用して各段階の動作を直接生成する方式とは異なり、候補動作を評価する検証者としてLLMを活用します。この目的のために、離散化されたワークスペースの構築と事前充填専用のワークフロー、双方向の進捗状況の好みの学習、スケーラブルな人 - エージェントの共同注釈などの包括的なフレームワークを提供します。 AndroidWorld、AndroidLab、MobileAgentBenchなど、複数のモバイルタスクオートメーションベンチマークで、既存のエージェントよりも高い成功率(それぞれ59.5%、38.3%、49%)とはるかに高速な処理速度(ステップあたり4.3秒、従来比6.1倍速い)を達成しました。ソースコードはFitHubで公開されています。

Takeaways、Limitations

Takeaways:
LLMを検証者として活用する新しいモバイルエージェントパラダイムの提示
既存エージェントと比較して高いタスク成功率と低い遅延時間を達成
効率的なデータ収集のための拡張可能な共同注釈方式の提案
オープンソース開示による研究の再現性と発展の可能性の向上
Limitations:
特定のベンチマークの性能評価結果のみが提示され、一般化の可能性に関するさらなる研究が必要
検証者のパフォーマンスの詳細な分析の欠如
さまざまな種類のモバイルタスクに適用可能性の追加検証が必要
👍