Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning

Created by
  • Haebom

作者

Liujian Tang, Shaokang Dong, Yijia Huang, Minqi Xiang, Hongtao Ruan, Bin Wang, Shuo Li, Zhiheng Xi, Zhihui Cao, Hailiang Pang, Heng Kong, He Yang, Mingxu Chai, Zhilin Gao, Xingyu Liu, Yingnan Fu, Jiang, Tao Gui, Qi Zhang, Kang Wang, Yunke Zhang, Yuran Wang

概要

MagicGUIは、実際のモバイルGUI環境における知覚、基盤構築、推論の重要な課題を解決するように設計された基本的なモバイルGUIエージェントです。 MagicGUIは、次の6つの主なコンポーネントに基づいています。複雑なインタラクション意図をすべて含む包括的で統合されたアクション空間、(4) 複雑なユーザーガイドラインを明示的な中間メタ計画推論を使用して逐次作業に分解できる計画指向の推論メカニズム、(5) 780万サンプルの大規模な継続的事前訓練と空間的に向上した複合補償および二重フィルタリング戦略を活用した独自のMagic-RICHベンチマークと12を超えるパブリックベンチマークで競争力のあるパフォーマンスを達成し、GUIの知覚とエージェントの操作全体で優れたパフォーマンスを提供し、図1に詳述されているように、実際のモバイルGUIシナリオで強力な一般化と実際の展開の可能性を実証します。

Takeaways、Limitations

Takeaways:
実際のモバイルGUI環境における知覚、基盤の構築、推論問題を解決する新しいアプローチを提示します。
大規模マルチモードGUIデータセットを活用した強力なパフォーマンス。
計画指向の推論機構による複雑なタスク実行能力
実際の環境での展開の可能性を示す優れた一般化パフォーマンス。
Limitations:
排他的なMagic-RICHベンチマークのパフォーマンスの詳細な説明の欠如。
様々なモバイルGUI環境に対する一般化性能の限界の可能性
実際の世界適用時に発生する可能性のある予期しない状況に対する対処能力の追加検証が必要です。
データパイプラインのスケーラビリティとメンテナンスに関する具体的な議論の欠如
👍