Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Aria-UI: Visual Grounding for GUI Instructions

Created by
  • Haebom

作者

Yuhao Yang, Yue Wang, Dongxu Li, Ziyang Luo, Bei Chen, Chao Huang, Junnan Li

概要

本稿では、さまざまなプラットフォームでGUIを直接操作してタスクを自動化するデジタルエージェントのための新しい大規模マルチモーダルモデルであるAria-UIを紹介します。 Aria-UIは、HTMLやAXTree入力に頼らず、純粋なビジョンアプローチを採用し、言語命令をターゲット要素に接続するという課題を解決します。さまざまな高品質のディレクティブサンプルを生成するスケーラブルなデータパイプラインを介して不均一な計画ディレクティブに適応し、作業の実行中に動的コンテキストを処理するためにテキストとテキスト画像の混合作業履歴を統合してコンテキスト認識推論を強化します。実験の結果、Aria-UIはオフラインおよびオンラインエージェントのベンチマークで既存のビジョン専用およびAXTreeベースのモデルを上回る最先端のパフォーマンスを達成しました。すべてのトレーニングデータとモデルチェックポイントは公開されています。

Takeaways、Limitations

Takeaways:
GUIベースのタスクオートメーションエージェントのパフォーマンス向上に寄与する新しいマルチモーダルモデルAria‐UI提示
HTMLやAXTree入力への依存性を排除し、より堅牢で一般化されたエージェント開発の可能性を提示します。
スケーラブルなデータパイプラインによるさまざまな作業ディレクティブに対する適応性の向上
テキストとテキスト - 画像の混合作業履歴を活用したコンテキスト認識推論によるより正確なターゲット要素の接続
オープンソース開示による継続的な研究発展の可能性の提示
Limitations:
この論文では、Aria-UIのパフォーマンスをさまざまなベンチマークで評価しましたが、実際のさまざまなGUI環境での一般化パフォーマンスの追加検証が必要になる場合があります。
特定の種類のGUIまたは操作に偏りがある可能性。
データパイプラインのスケーラビリティの制限とデータ品質の継続的な管理ニーズ。
複雑で曖昧な作業指示書の処理能力に関する追加の研究が必要になるかもしれません。
👍