Este artículo propone la Puntuación de Robustez Factual (FRS), una novedosa métrica para evaluar la robustez del conocimiento factual en modelos lingüísticos a gran escala (LLM). Si bien los métodos de evaluación existentes se centran principalmente en métricas basadas en el rendimiento y el impacto externo de los cambios inmediatos, este artículo presenta un enfoque basado en principios para medir la robustez factual durante el proceso de generación mediante el análisis de la entropía de la distribución de tokens y la sensibilidad al escalamiento de temperatura. Experimentos con cinco LLM y tres conjuntos de datos de preguntas y respuestas cerradas (SQuAD, TriviaQA y HotpotQA) demuestran que la robustez factual varía significativamente con el tamaño del modelo (0,76 para modelos pequeños y 0,93 para modelos grandes), y que la precisión disminuye aproximadamente un 60 % a medida que aumenta la incertidumbre. Este análisis demuestra el impacto de la entropía y el escalamiento de temperatura en la precisión factual, sentando las bases para el desarrollo de modelos con capacidades de retención y recuperación de conocimiento más robustas.