Dans cet article, nous proposons KonTest, un framework de tests automatisés permettant d'identifier et de mesurer systématiquement les incohérences et les lacunes de connaissances dans les modèles linguistiques à grande échelle (MLH). KonTest exploite des graphes de connaissances pour générer des cas de test et combine des requêtes sémantiquement équivalentes avec des oracles de test (transformationnels ou ontologiques) pour étudier et mesurer les incohérences dans la connaissance du monde du LH. De plus, il atténue les lacunes de connaissances grâce à un ensemble de modèles LH pondérés. Les résultats expérimentaux obtenus avec quatre LH de pointe (Falcon, Gemini, GPT3.5 et Llama2) montrent que KonTest a généré 1 917 entrées génératrices d'erreurs (19,2 %) sur 9 979 entrées de test, ce qui a entraîné un déficit de connaissances de 16,5 % pour l'ensemble des LH testés. Une méthode d'atténuation basée sur l'ensemble de tests de KonTest a réduit le déficit de connaissances du LH de 32,48 %. Des études d'ablation supplémentaires démontrent que l'efficacité de la construction des connaissances de GPT3.5 n'est que de 60 à 68 %, ce qui le rend inadapté aux tests de cohérence basés sur les connaissances.