En este artículo, proponemos KonTest, un marco de pruebas automatizadas para identificar y medir sistemáticamente inconsistencias y lagunas de conocimiento en modelos de lenguaje a gran escala (LLM). KonTest aprovecha los grafos de conocimiento para generar casos de prueba y combina consultas semánticamente equivalentes con oráculos de prueba (oráculos transformacionales u ontológicos) para investigar y medir inconsistencias en el conocimiento del mundo del LLM. Además, mitiga las lagunas de conocimiento mediante un conjunto ponderado de modelos LLM. Los resultados experimentales con cuatro LLM de vanguardia (Falcon, Gemini, GPT3.5 y Llama2) muestran que KonTest generó 1917 entradas que inducen errores (19,2 %) de 9979 entradas de prueba, lo que resulta en una laguna de conocimiento del 16,5 % en todos los LLM probados. Un método de mitigación basado en el conjunto de pruebas de KonTest redujo la laguna de conocimiento del LLM en un 32,48 %. Estudios de ablación adicionales demuestran que la eficiencia de construcción de conocimiento de GPT3.5 es solo del 60-68%, lo que lo hace inadecuado para pruebas de consistencia basadas en conocimiento.