Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning

Created by
  • Haebom

作者

Liujian Tang, Shaokang Dong, Yijia Huang, Minqi Xiang, Hongtao Ruan, Bin Wang, Shuo Li, Zhiheng Xi, Zhihui Cao, Hailiang Pang, Heng Kong, He Yang, Mingxu Chai, Zhilin Gao, Xingyu Liu, Yingnan Fu, Jiang, Tao Gui, Qi Zhang, Kang Wang, Yunke Zhang, Yuran Wang

概要

MagicGUIは、実際のモバイルGUI環境における知覚、基盤構築、推論の重要な課題を解決するように設計された基本的なモバイルGUIエージェントです。 6つのコアコンポーネントで構成されています。(1)オープンソースリポジトリ、自動クロール、およびターゲット手動注釈から収集された最大かつ多様なGUI中心のマルチモードデータを集約する拡張可能なGUIデータパイプラインを介して構築された包括的で正確なデータセット。 (2)UI要素の参照、基盤の構築、および画面理解のためのきめ細かいマルチモードアライメントを容易にする強化された知覚および基盤構築機能。 (3)基本的なUIタスクと複雑な対話意図の両方を含む包括的で統合されたワークスペースでの人とエージェントの対話をサポートします。 (4)モデルが複雑なユーザー指示を明示的な中間メタ計画推論を使用して逐次作業に分解することを可能にする計画指向の推論メカニズム。 (5)780万サンプルの大規模な継続的事前トレーニングと空間的に改善された複合補償と二重フィルタリング戦略を活用した強化学習微調整を組み合わせた反復2段階トレーニング手順。 (6)独自のMagic-RICHベンチマークと12を超えるパブリックベンチマークで競争力のあるパフォーマンスを達成し、GUIの知覚とエージェントの操作全体で優れたパフォーマンスを達成し、図1に詳細に説明されているように、実際のモバイルGUIシナリオで強力な一般化と実際の展開の可能性を示します。

Takeaways、Limitations

Takeaways:
大規模マルチモーダルGUIデータセットを活用したモバイルGUIエージェントのパフォーマンス向上
高度な知覚と基盤構築機能による正確で効率的なUIインタラクション
計画指向の推論機構による複雑なタスク実行能力
実際のモバイル環境における強力な一般化と展開の可能性
さまざまなベンチマークで優れた性能を達成。
Limitations:
Magic-RICHベンチマークの自己開発による客観性の低下の可能性
データセットの偏りによる一般化性能の低下の可能性。
実際の環境における例外状況処理能力に関する追加研究の必要性
エージェントの複雑さによる演算コストの増加の可能性
👍