Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Tests de cohérence basés sur les connaissances des grands modèles linguistiques

Created by
  • Haebom

Auteur

Sai Sathiesh Rajan, Ezekiel Soremekun, Sudipta Chattopadhyay

Contour

Dans cet article, nous proposons KonTest, un framework de tests automatisés permettant d'identifier et de mesurer systématiquement les incohérences et les lacunes de connaissances dans les modèles linguistiques à grande échelle (MLH). KonTest exploite des graphes de connaissances pour générer des cas de test et combine des requêtes sémantiquement équivalentes avec des oracles de test (transformationnels ou ontologiques) pour étudier et mesurer les incohérences dans la connaissance du monde du LH. De plus, il atténue les lacunes de connaissances grâce à un ensemble de modèles LH pondérés. Les résultats expérimentaux obtenus avec quatre LH de pointe (Falcon, Gemini, GPT3.5 et Llama2) montrent que KonTest a généré 1 917 entrées génératrices d'erreurs (19,2 %) sur 9 979 entrées de test, ce qui a entraîné un déficit de connaissances de 16,5 % pour l'ensemble des LH testés. Une méthode d'atténuation basée sur l'ensemble de tests de KonTest a réduit le déficit de connaissances du LH de 32,48 %. Des études d'ablation supplémentaires démontrent que l'efficacité de la construction des connaissances de GPT3.5 n'est que de 60 à 68 %, ce qui le rend inadapté aux tests de cohérence basés sur les connaissances.

Takeaways, Limitations_

Takeaways :
Nous présentons un cadre de test automatisé (KonTest) pour mesurer et atténuer systématiquement les incohérences et les lacunes de connaissances dans le LLM.
Mesurez quantitativement le taux d'erreur réel et le manque de connaissances du LLM via KonTest et présentez sa taille.
Nous démontrons que le manque de connaissances en LLM peut être considérablement réduit en utilisant une méthode d’atténuation basée sur KonTest.
Nous présentons les caractéristiques des modèles qui conviennent et ceux qui ne conviennent pas au test de cohérence basé sur les connaissances du LLM.
Limitations:
La génération de cas de test de KonTest repose sur un graphique de connaissances, ses performances peuvent donc être affectées par l'exhaustivité et la précision du graphique de connaissances.
Les sujets d’examen pour les LLM sont limités et il est nécessaire de tester un éventail plus large de LLM.
Une analyse plus approfondie est nécessaire pour déterminer pourquoi l’efficacité du développement des connaissances de GPT-3.5 est faible.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de la méthode d’atténuation.
👍