Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

Created by
  • Haebom

作者

Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

概要

本論文は、新しいソフトウェア環境で人間の介入なしに自ら学習し進化するコンピュータ使用エージェント(CUA)のためのフレームワークであるSEAgentを提案します。 SEAgentは大規模ビジョン言語モデル(LVLM)に基づいており、試行錯誤による経験的学習を通じて新しいソフトウェアを習得します。単純な作業から複雑な作業まで、徐々に実行する自動生成タスクを使用して学習し、詳細なステップバイステップのルート評価のためのWorld State Modelと、より多様で困難なタスクを生成するCurriculum Generatorを使用します。エージェントの方針は、失敗行動に対する敵対的な模倣と、成功行動のための Group Relative Policy Optimization (GRPO) を通じて更新されます。さらに、専門化されたエージェントの経験的洞察を統合する専門家 - 一般化戦略を通じて、継続的な自律的な進化を可能にする強力な一般化CUAを開発します。 OS-World内の5つの新しいソフトウェア環境でSEAgentの効果を検証し、既存のオープンソースCUAであるUI-TARSより成功率を23.2%(11.3%から34.5%に)向上させました。

Takeaways、Limitations

Takeaways:
人間の介入なしに新しいソフトウェアを学習し、適応するCUAの可能性を示します。
経験的学習とCurriculum Generatorを通じて効率的な学習戦略を提示します。
エキスパート - 一般化戦略を通じて一般的なCUAのパフォーマンスを向上させます。
既存のCUAと比較して大幅なパフォーマンス向上を達成しました。
Limitations:
OS-Worldという特定の環境でのみ検証されたため、一般化の可能性に関するさらなる研究が必要です。
実際の複雑なソフトウェア環境でのパフォーマンス検証がさらに必要です。
World State ModelとCurriculum Generatorの設計が特定の環境に最適化されている可能性存在。
エージェントの学習過程で発生する可能性のある予測不可能性の追加分析が必要です。
👍