Cet article propose le score de robustesse factuelle (FRS), une nouvelle mesure permettant d'évaluer la robustesse des connaissances factuelles dans les modèles linguistiques à grande échelle (LLM). Alors que les méthodes d'évaluation existantes se concentrent principalement sur les mesures basées sur les performances et l'impact externe des changements rapides, cet article présente une approche raisonnée pour mesurer la robustesse factuelle pendant le processus de génération lui-même en analysant l'entropie de la distribution des jetons et la sensibilité à l'échelle de température. Des expériences sur cinq LLM et trois jeux de données de questions-réponses fermés (SQuAD, TriviaQA et HotpotQA) démontrent que la robustesse factuelle varie significativement avec la taille du modèle (0,76 pour les petits modèles et 0,93 pour les grands modèles), la précision diminuant d'environ 60 % à mesure que l'incertitude augmente. Cette analyse démontre l'impact de l'entropie et de l'échelle de température sur la précision factuelle, jetant les bases du développement de modèles dotés de capacités de rétention et de récupération des connaissances plus robustes.