Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions

Created by
  • Haebom

作者

Tao Yu, Zhengbo Zhang, Zhiheng Lyu, Junhao Gong, Hongzhu Yi, Xinming Wang, Yuxuan Zhou, Jiabing Yang, Ping Nie, Yan Huang, Wenhu Chen

概要

本論文は、LLMが動的Web環境と対話し、外部情報を自律的に取得する能力を向上させることに焦点を当てています。人間のウェブブラウジング行動を模倣し、スクロール、クリック、タイピングなど多様なブラウザアクションを通じて複雑な作業を解決するよりインタラクティブなエージェントであるBrowserAgentを提案する。 BrowserAgentは、Playwrightを介して生のWebページで直接動作し、SFTとRFTの2段階のトレーニング方式を使用します。これは、Search-R1より少ないトレーニングデータを使用しながら、さまざまなOpen-QA作業で競争力のある結果を達成しました。さらに、長期的な作業に対するモデルの推論能力を向上させるために、明示的なメモリ機構を導入した。 BrowserAgent-7Bは、HotpotQA、2Wiki、BamboogleなどのマルチホップQA操作で、Search-R1より約20%向上したパフォーマンスを示しました。

Takeaways、Limitations

Takeaways:
人間のブラウジング行動を模倣したインタラクティブなエージェント設計により、Web環境とのやり取りを改善します。
SFTとRFTの2段階のトレーニング方式によってモデルの一般化能力を向上させます。
明示的なメモリメカニズムによる長期的な作業の推論能力を強化する。
Search-R1より少ないトレーニングデータを使用しても優れたパフォーマンスを達成します。
マルチホップQA操作で有意なパフォーマンス向上を示します。
Limitations:
具体的なLimitationsは論文の内容に直接言及されていません。 (今後の議論を通じて把握が必要)
👍