Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

De la confianza al colapso en la solidez fáctica del LLM

Created by
  • Haebom

Autor

Alina Fastowski, Bardh Prenkaj, Gjergji Kasneci

Describir

Este artículo propone la Puntuación de Robustez Factual (FRS), una novedosa métrica para evaluar la robustez del conocimiento factual en modelos lingüísticos a gran escala (LLM). Si bien los métodos de evaluación existentes se centran principalmente en métricas basadas en el rendimiento y el impacto externo de los cambios inmediatos, este artículo presenta un enfoque basado en principios para medir la robustez factual durante el proceso de generación mediante el análisis de la entropía de la distribución de tokens y la sensibilidad al escalamiento de temperatura. Experimentos con cinco LLM y tres conjuntos de datos de preguntas y respuestas cerradas (SQuAD, TriviaQA y HotpotQA) demuestran que la robustez factual varía significativamente con el tamaño del modelo (0,76 para modelos pequeños y 0,93 para modelos grandes), y que la precisión disminuye aproximadamente un 60 % a medida que aumenta la incertidumbre. Este análisis demuestra el impacto de la entropía y el escalamiento de temperatura en la precisión factual, sentando las bases para el desarrollo de modelos con capacidades de retención y recuperación de conocimiento más robustas.

Takeaways, Limitations

Takeaways:
Presentamos FRS, un nuevo índice para evaluar la robustez del conocimiento factual del LLM.
Se presenta un nuevo método de evaluación centrado en el propio proceso de creación.
Revelando la correlación entre el tamaño del modelo y la robustez realista.
Identificar el fenómeno del deterioro de la precisión debido al aumento de la incertidumbre.
Establecer una base que pueda contribuir a mejorar las capacidades de retención y recuperación de conocimientos del LLM en el futuro.
Limitations:
Se necesitan más investigaciones para determinar la generalización de los indicadores FRS propuestos.
Se necesitan más experimentos con diferentes tipos de LLM y conjuntos de datos.
Se necesitan más investigaciones para mejorar y complementar los indicadores del FRS.
👍