Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

WebWalker: Benchmarking LLMs in Web Traversal

Created by
  • Haebom

作者

Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Linhai Zhang, Yulan He, Deyu Zhou, Pengjun Xie, Fei Huang

概要

Retrieval-augmented generation (RAG) はオープンな問合せ応答課題において優れた性能を示していますが、既存の検索エンジンは表面的な情報だけを検索して複雑で多層的な情報を処理する LLM の能力を制限します。本稿では、LLMのWebナビゲーション能力を評価するためのベンチマークであるWebWalkerQAを紹介します。 WebWalkerQAは、Webサイトのサブページを閲覧して、高品質のデータを体系的に抽出するLLMの能力を評価します。また、ナビゲーション - 批評パラダイムを通じて、人に似たWebナビゲーションを模倣するマルチエージェントフレームワークであるWebWalkerを提案します。実験の結果、WebWalkerQAは困難な課題であることを示しており、実際のシナリオで水平および垂直統合によってWebWalkerと組み合わせたRAGの効果を実証しています。

Takeaways、Limitations

Takeaways:
WebWalkerQAは、LLMのWebナビゲーション能力を評価する新しいベンチマークを提供します。
WebWalkerは、RAGのパフォーマンスを向上させる効果的なマルチエージェントフレームワークであることを示しています。
実際のシナリオにおけるRAGとWebWalkerの水平および垂直統合の効果を示す。
Limitations:
WebWalkerQAの難易度と実際のWeb環境との違いの追加分析が必要です。
WebWalkerのスケーラビリティとさまざまなWebサイト構造への適応性に関する追加の研究が必要です。
提示されたWebWalkerのパフォーマンス向上に関する追加の研究が必要です。
👍