Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

GUI-PRA: Process Reward Agent for GUI Tasks

Created by
  • Haebom

作者

Tao Xiong, Xavier Hu, Yurun Chen, Yuhang Liu, Changqiao Wu, Pengzhi Gao, Wei Liu, Jian Luan, Shengyu Zhang

GUI-PRA: GUI 操作のプロセス補償エージェント

概要

マルチモーダル大規模言語モデル(MLLM)ベースのGUIエージェントは、作業の自動化に大きな可能性を示していますが、長期的な作業に苦労することがよくあります。プロセス補償モデル(PRM)は、推論中に重要なプロセス信号を介してこれらのエージェントを導くことができる有望な解決策ですが、GUIドメインに適用することは独自の課題を提示します。長い記録データを持つ密集した人工入力を処理するとき、PRMは「途中で忘れる」現象に苦しみ、過度の過去のコンテキストが現在の段階の評価を損なう。さらに、標準PRMはGUI変化認識を持たず、静的評価を提供し、これは本質的に動的GUI操作の特性と一致しない。この課題に対処するために、我々は歴史的コンテキストをインテリジェントに処理し、UI状態の変化を積極的に認識し、標準PRMよりも優れたプロセス補償を提供するように設計された裁判官エージェントであるGUI-PRA(GUI作業用プロセス補償エージェント)を紹介します。特に、「途中で忘れられた」現象に直接対応するために、長い履歴から適切な情報を積極的にもたらす関連性ベースの検索モジュールと、増加する相互作用データを動的に要約する漸進的要約モジュールからなる動的メモリメカニズムを導入し、モデルが関連コンテキストに集中するようにします。また、UI変化認識不足の問題を解決するために、適応UI認識機構を導入した。このメカニズムは、エージェントがUI状態の変化について推論し、根拠のある視覚的証拠を収集するための最も適切なツールを動的に選択できるようにし、評価が常に現在のUIコンテキストによって情報を受け取るようにします。

Takeaways、Limitations

Takeaways:
GUI-PRAは、GUI操作におけるMLLMベースのエージェントのパフォーマンスを向上させるための新しいアプローチを提示します。
動的メモリメカニズムは、「途中で忘れられた」現象を解決し、エージェントが関連するコンテキストに集中するのを助けます。
適応型UI認識機構は、UI状態の変化を考慮してエージェントの評価を改善する。
Limitations:
論文で具体的な実験結果や性能比較に関する情報が不足している。
実装の詳細と特定のアルゴリズムの説明が不足しています。
提案されたメカニズムの一般化の可能性とさまざまなGUI操作への適用可能性に関するさらなる研究が必要です。
👍