Để Giải quyết những thách thức trong việc đánh giá các tác nhân web tự động dựa trên mô hình ngôn ngữ quy mô lớn (LLM), bài báo này trình bày WebArXiv, một chuẩn mực tĩnh và bất biến theo thời gian được xây dựng trên nền tảng arXiv. WebArXiv đảm bảo các đánh giá có thể tái tạo và đáng tin cậy bằng cách sử dụng ảnh chụp nhanh web cố định, một sự thật cơ bản mang tính quyết định và các lộ trình hành động được chuẩn hóa. Chúng tôi xác định một chế độ lỗi phổ biến, "Phản ánh Lịch sử Cứng nhắc", trong đó các tác nhân phụ thuộc quá nhiều vào lịch sử tương tác trong quá khứ của chúng, và đề xuất một cơ chế phản ánh động nhẹ, có thể truy xuất có chọn lọc các bước tương ứng trong quá khứ trong quá trình ra quyết định. Chúng tôi đánh giá mười tác nhân web hiện đại trên WebArXiv để chứng minh sự khác biệt về hiệu suất giữa các tác nhân và xác thực tính hiệu quả của chiến lược phản ánh mà chúng tôi đề xuất.