本稿では、大規模言語モデル(LLM)ベースの自律型Webエージェントの評価の難しさを解決するために、arXivプラットフォームに基づく静的で時間不変のベンチマークであるWebArXivを紹介します。 WebArXivは、固定されたWebスナップショットと決定論的な基準真実、標準化された動作パスを使用して、再現可能で信頼性の高い評価を保証します。論文は、エージェントが過去の対話記録に過度に依存している「Rigid History Reflection」という一般的な失敗モードを特定し、これを解決するために意思決定プロセスで関連する過去のステップを選択的に検索できる軽量動的反映メカニズムを提案します。 10の最先端のWebエージェントをWebArXivで評価して、エージェント間のパフォーマンスの違いを示し、提案された反映戦略の効果を検証します。