Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks

Created by
  • Haebom

作者

ジハオサン、リンチェン

概要

本稿では、大規模言語モデル(LLM)ベースの自律型Webエージェントの評価の難しさを解決するために、arXivプラットフォームに基づく静的で時間不変のベンチマークであるWebArXivを紹介します。 WebArXivは、固定されたWebスナップショットと決定論的な基準真実、標準化された動作パスを使用して、再現可能で信頼性の高い評価を保証します。論文は、エージェントが過去の対話記録に過度に依存している「Rigid History Reflection」という一般的な失敗モードを特定し、これを解決するために意思決定プロセスで関連する過去のステップを選択的に検索できる軽量動的反映メカニズムを提案します。 10の最先端のWebエージェントをWebArXivで評価して、エージェント間のパフォーマンスの違いを示し、提案された反映戦略の効果を検証します。

Takeaways、Limitations

Takeaways:
ArXivベースの静的で時間不変のWebエージェントベンチマークWebArXivを提示し、再現可能で信頼できる評価を可能にします。
Webエージェントの一般的な失敗モードである「Rigid History Reflection」を解明し、これを解決するための効果的な軽量動的反映メカニズムを提案。
最先端のWebエージェント間のパフォーマンスの違いを明確に示しています。
Limitations:
WebArXivはarXivプラットフォームに限定されており、他のWebサイトの多様性を反映していない可能性があります。
提案された動的反射メカニズムの一般化性能に関するさらなる研究が必要である。
評価に使用されるWebエージェントの種類は限られている可能性があります。
👍