Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

De la confiance à l'effondrement de la robustesse factuelle du LLM

Created by
  • Haebom

Auteur

Alina Fastowski, Bardh Prenkaj, Gjergji Kasneci

Contour

Cet article propose le score de robustesse factuelle (FRS), une nouvelle mesure permettant d'évaluer la robustesse des connaissances factuelles dans les modèles linguistiques à grande échelle (LLM). Alors que les méthodes d'évaluation existantes se concentrent principalement sur les mesures basées sur les performances et l'impact externe des changements rapides, cet article présente une approche raisonnée pour mesurer la robustesse factuelle pendant le processus de génération lui-même en analysant l'entropie de la distribution des jetons et la sensibilité à l'échelle de température. Des expériences sur cinq LLM et trois jeux de données de questions-réponses fermés (SQuAD, TriviaQA et HotpotQA) démontrent que la robustesse factuelle varie significativement avec la taille du modèle (0,76 pour les petits modèles et 0,93 pour les grands modèles), la précision diminuant d'environ 60 % à mesure que l'incertitude augmente. Cette analyse démontre l'impact de l'entropie et de l'échelle de température sur la précision factuelle, jetant les bases du développement de modèles dotés de capacités de rétention et de récupération des connaissances plus robustes.

Takeaways, Limitations_

Takeaways:
Nous présentons FRS, un nouvel indice permettant d’évaluer la robustesse des connaissances factuelles des LLM.
Une nouvelle méthode d’évaluation centrée sur le processus de création lui-même est présentée.
Révéler la corrélation entre la taille du modèle et la robustesse réaliste.
Identifier le phénomène de détérioration de la précision due à une incertitude accrue.
ÉTablir une base qui peut contribuer à améliorer les capacités de rétention et de récupération des connaissances du LLM à l’avenir.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité des indicateurs FRS proposés.
D’autres expériences sont nécessaires sur différents types de LLM et d’ensembles de données.
Des recherches supplémentaires sont nécessaires pour améliorer et compléter les indicateurs FRS.
👍