En este artículo, presentamos una novedosa metodología de evaluación para abordar el problema de alucinación de los modelos de lenguaje a gran escala (LLM), especialmente al responder preguntas fuera de la base de conocimiento en el entorno de generación aumentada (RAG). Presentamos knowornot, una biblioteca de código abierto que permite la evaluación automatizada en lugar de la anotación manual tradicional, y demostramos que puede utilizarse para evaluar sistemáticamente la robustez de los LLM fuera de la base de conocimiento (OOKB). knowornot facilita el desarrollo de datos y procesos de evaluación personalizados, y proporciona características como una API unificada, una arquitectura modular, un modelado de datos riguroso y diversas herramientas definidas por el usuario. Demostramos la utilidad de knowornot mediante el desarrollo de un punto de referencia llamado PolicyBench, que incluye cuatro chatbots de respuesta a preguntas relacionados con políticas gubernamentales. El código fuente de knowornot está disponible en GitHub.