Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

TGPO: Tree-Guided Preference Optimization for Robust Web Agent Reinforcement Learning

Created by
  • Haebom

作者

Ziyuan Chen, Zhenghui Zhao, Zhangye Han, Miancan Liu, Xianhang Ye, Yiqing Li, Hongbo Min, Jinkui Ren, Xiantao Zhang, Guitao Cao

概要

本論文は、大規模な言語モデルとビジョン言語モデルの進歩により、Webインタラクション自動化のためのWebエージェントとしての活用が不可欠な状況で、強化学習を利用したWebエージェント訓練の難しさ(クレジット割当エラー、高い注釈コスト、報酬希少性)を解決するために提案されたTree-Guided Preference Optimization(TGPO)フレームワーク。 TGPOは、ツリー構造の軌跡表現を使用して意味的に同じ状態をマージすることによってラベルの衝突を排除し、サブターゲットの進行、重複検出、および行動検証によって細分化された補償を自動的に生成するプロセス補償モデルを統合します。さらに、動的重み付けメカニズムを介してトレーニング中の重要な意思決定ポイントを優先します。 Online-Mind2Webと自己構築C-WebShopデータセットの実験の結果、TGPOは従来の方法よりも成功率が高く不要なステップが少ないことを示した。

Takeaways、Limitations

Takeaways:
強化学習ベースのWebエージェント訓練の難しさを解決するための新しいアプローチを提示します(ツリー構造表現、プロセス補償モデル、動的重み付けメカニズム)
従来の方法と比較して高い成功率と効率性を達成
自動化されたWebインタラクションの発展に貢献
Limitations:
提案された方法の一般化性能の追加検証が必要
C-WebShopデータセットの具体的な構成と制限の詳細な説明の欠如
さまざまなWeb環境への適用性と拡張性に関するさらなる研究が必要
👍