Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

GUIエージェント:A Survey

Created by
  • Haebom

作者

Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia, Xintong Li, Jing Shi, Hongjie Chen, Viet Dac Lai, Zhouhang Xie, Sungchul Kim, Ruiyi Zen, Ahmed, Puneet Mathur, Seunghyun Yoon, Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt

概要

本稿では、大規模基礎モデルベースのグラフィカルユーザーインターフェイス(GUI)エージェントの包括的な調査を提供します。 GUIエージェントは、クリック、入力、ナビゲーションなどの人間の行動を模倣し、さまざまなプラットフォームでデジタルシステムまたはソフトウェアアプリケーションと対話する自動化されたシステムです。本稿では、GUIエージェントのベンチマーク、評価指標、アーキテクチャ、学習方法を分類し、知覚、推論、計画、行動能力を説明する統合フレームワークを提案します。また、重要な未解決の課題と将来の方向性を提示し、研究者と実務者が現在の進展、技術、ベンチマーク、未解決の問題を理解するのに役立ちます。

Takeaways、Limitations

Takeaways:
GUIエージェント分野の包括的な調査と分析を提供
GUIエージェントの統合フレームワークの提示(知覚、推論、計画、行動)
現在の技術レベル、ベンチマーク、未解決の課題の明確な理解を提供
今後の研究方向の提示
Limitations:
本論文自体が特定のGUIエージェントシステムを提示または実験的に検証するものではない。既存研究の総合と分析に集中。
GUIエージェントの倫理的および社会的影響に関する議論の欠如
急速に発展する分野なので、発表後の新たな研究結果反映の難しさ。
👍