Afin de relever les défis de l'évaluation des agents web autonomes basés sur des modèles de langage à grande échelle (LLM), cet article présente WebArXiv, un benchmark statique et invariant dans le temps, basé sur la plateforme arXiv. WebArXiv garantit des évaluations reproductibles et fiables grâce à des instantanés web fixes, une vérité terrain déterministe et des chemins d'action standardisés. Nous identifions un mode de défaillance courant, la « réflexion historique rigide », où les agents s'appuient excessivement sur leur historique d'interactions passées, et proposons un mécanisme de réflexion dynamique léger qui récupère sélectivement les étapes passées pertinentes lors de la prise de décision. Nous évaluons dix agents web de pointe sur WebArXiv afin de démontrer les différences de performances inter-agents et de valider l'efficacité de notre stratégie de réflexion proposée.