Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Created by
  • Haebom

作者

キジシサン、カンジチェン、チチェンディン、チュヤンジン、ヤンワン、ファンジシュ、ツェニュウ、チェンヨウジア、リヘンチェン、チョウミアンツェリウ、ベンカオ、グオハオリ、ジュンシアンヘ、ユキアオ、ジヨンウ

概要

この論文は、Vision-Language Model(VLM)ベースのGUIエージェントトレーニングのための高品質の軌跡データ収集の難しさを解決する新しい方法であるOS-Genesisを提案します。従来の方法は、人間の監督や事前定義されたタスクを介した合成データの生成に依存して、リソース集約的またはデータ品質を保証できないという制限があります。 OS-Genesisは、これらの問題を解決するために、エージェントが最初に環境を認識し、段階的な対話を実行した後、逆に高品質のタスクを導き、軌跡レベルのナビゲーションを可能にする新しいデータ合成パイプラインを提示します。軌跡補償モデルを使用して生成された軌跡の品質を保証し、実験結果OS-Genesisで訓練されたGUIエージェントは、要求の厳しいオンラインベンチマークでパフォーマンスが大幅に向上することを示しています。また、OS-Genesisの効率性と従来の合成方法よりも優れたデータ品質と多様性を深い分析で検証します。コード、データ、およびチェックポイントは公に提供されます。

Takeaways、Limitations

Takeaways:
GUIエージェント訓練のための高品質データ収集の困難な解決に貢献
従来の人間監督と合成データ生成方式の限界を克服
OS-Genesisにより、より効率的で多様で高品質なデータ生成が可能です。
要求の厳しいオンラインベンチマークでのGUIエージェントのパフォーマンス向上の確認。
コード、データ、およびチェックポイント開示による研究の再現性と拡張性の向上。
Limitations:
OS-Genesisのパフォーマンスが特定の種類のGUI環境またはタスクに偏る可能性。
軌跡補償モデルの設計と最適化に関するさらなる研究の必要性
実際の世界の複雑さを完全に反映する合成データ生成の難しさ。
👍