この論文は、Vision-Language Model(VLM)ベースのGUIエージェントトレーニングのための高品質の軌跡データ収集の難しさを解決する新しい方法であるOS-Genesisを提案します。従来の方法は、人間の監督や事前定義されたタスクを介した合成データの生成に依存して、リソース集約的またはデータ品質を保証できないという制限があります。 OS-Genesisは、これらの問題を解決するために、エージェントが最初に環境を認識し、段階的な対話を実行した後、逆に高品質のタスクを導き、軌跡レベルのナビゲーションを可能にする新しいデータ合成パイプラインを提示します。軌跡補償モデルを使用して生成された軌跡の品質を保証し、実験結果OS-Genesisで訓練されたGUIエージェントは、要求の厳しいオンラインベンチマークでパフォーマンスが大幅に向上することを示しています。また、OS-Genesisの効率性と従来の合成方法よりも優れたデータ品質と多様性を深い分析で検証します。コード、データ、およびチェックポイントは公に提供されます。