Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SKA-Bench : un outil de référence précis pour évaluer la compréhension structurée des connaissances des LLM

Created by
  • Haebom

Auteur

Zhiqiang Liu, Enpei Niu, Yin Hua, Mengshu Sun, Lei Liang, Huajun Chen, Wen Zhang

Contour

Cet article propose SKA-Bench, un nouveau benchmark pour évaluer la compréhension des connaissances structurées (CS) des modèles de langage à grande échelle (MLH). SKA-Bench inclut quatre types de MLH : graphes de connaissances (GC), tableaux, GC+texte et tableaux+texte. Il génère des instances composées de questions, de réponses correctes, d'unités de connaissances positives et d'unités de connaissances incorrectes via un pipeline en trois étapes. Pour évaluer plus en détail la compréhension des MLH par les GC, nous étendons les quatre bancs d'essai fondamentaux pour la robustesse au bruit, l'indifférence à l'ordre, l'intégration de l'information et le rejet de l'information négative. Des expériences sur huit MLH représentatifs démontrent que les MLH existants peinent encore à comprendre les connaissances structurées, et que leurs performances sont affectées par des facteurs tels que la quantité de bruit, l'ordre des unités de connaissances et les hallucinations. L'ensemble de données et le code sont disponibles sur GitHub.

Takeaways, Limitations_

Takeaways:
Fournit une référence d'évaluation complète et rigoureuse pour la capacité du LLM à comprendre les connaissances structurées.
En couvrant de manière exhaustive différents types de connaissances structurées, vous pouvez diagnostiquer avec précision les faiblesses de votre LLM.
Il permet une analyse détaillée de la capacité du LLM à comprendre des connaissances structurées.
Il présente clairement les limites de la capacité de compréhension des connaissances structurées des LLM existants.
Limitations:
Les types de LLM actuellement inclus dans le benchmark peuvent être limités.
Des recherches supplémentaires pourraient être nécessaires sur les mesures d’évaluation des performances et les méthodes de mesure du SKA-Bench.
Il peut y avoir un biais en faveur de certains types de connaissances structurées.
👍