Bài báo này trình bày WebProber, một nền tảng kiểm thử web dựa trên các mô hình ngôn ngữ quy mô lớn (LLM) và các tác nhân AI, giúp xác định hiệu quả các vấn đề về khả năng sử dụng trên trang web. Không giống như các phương pháp hiện có tập trung vào độ bao phủ mã và kiểm thử tải, WebProber điều hướng và tương tác với các trang web theo cách tương tự như người dùng thực tế, xác định lỗi và các vấn đề về khả năng sử dụng, đồng thời tạo ra các báo cáo dễ đọc. Trong một nghiên cứu điển hình trên 120 trang web học thuật, WebProber đã xác định được 29 vấn đề về khả năng sử dụng mà các công cụ hiện có còn bỏ sót. Điều này chứng minh tiềm năng của kiểm thử dựa trên tác nhân AI và gợi ý các hướng phát triển cho các nền tảng kiểm thử lấy người dùng làm trung tâm thế hệ tiếp theo.