Este artículo presenta WebProber, un marco de pruebas web basado en modelos de lenguaje a gran escala (LLM) y agentes de IA, para identificar eficazmente problemas de usabilidad en sitios web. A diferencia de los enfoques existentes que se centran en la cobertura de código y las pruebas de carga, WebProber navega e interactúa con los sitios web de forma similar a la de los usuarios reales, identificando errores y problemas de usabilidad y generando informes legibles. En un estudio de caso de 120 sitios web académicos, WebProber identificó 29 problemas de usabilidad que las herramientas existentes no detectaban. Esto demuestra el potencial de las pruebas basadas en agentes de IA y sugiere directrices para el desarrollo de marcos de pruebas centrados en el usuario de nueva generación.