Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Quelle question poseriez-vous à la première rencontre avec $a^2+b^2=c^2$ ? Évaluation du LLM sur le questionnement guidé par la curiosité

Created by
  • Haebom

Auteur

Shashidhar Reddy Javaji, Zining Zhu

Contour

Dans cet article, nous proposons un nouveau cadre d'évaluation de la capacité des modèles linguistiques à grande échelle (MLE) à acquérir de nouvelles connaissances. Ce cadre simule un être humain curieux qui rencontre une phrase introduisant des connaissances scientifiques en incitant le LE à générer des questions pour la première fois. Nous évaluons le potentiel d'acquisition de connaissances du LE en évaluant la qualité des questions générées et validons la validité de la procédure de notation par une étude d'élimination contrôlée. Nous générons un ensemble de données synthétiques composé de 1 101 phrases de difficulté variable en physique, chimie et mathématiques, de 300 phrases de culture générale et de 567 phrases incorrectes, et validons la validité de l'évaluation du modèle par une évaluation humaine (kappa de Cohen pondéré d'environ 0,7). Nous constatons que si les grands modèles tels que GPT-4 et Mistral 8x7b sont capables de générer des questions cohérentes et pertinentes, le modèle Phi-2, plus petit, est tout aussi efficace, voire plus. Cela suggère que la taille du modèle n'est pas le seul facteur déterminant le potentiel d'acquisition de connaissances. Le cadre proposé quantifie les caractéristiques importantes du modèle qui ont été jusqu’alors négligées et présente des opportunités de recherche pour développer des systèmes d’IA plus riches en connaissances.

Takeaways, Limitations

Takeaways:
Un nouveau cadre pour évaluer la capacité des LLM à acquérir de nouvelles connaissances
Révèle que la taille du modèle n'est pas le seul facteur déterminant le potentiel d'acquisition de connaissances
Présentation d'une nouvelle direction de recherche pour le développement de systèmes d'IA riches en connaissances
Présentation d'un moyen efficace d'évaluer indirectement la capacité d'acquisition de connaissances grâce à la capacité de génération de questions du LLM
Limitations:
Des recherches supplémentaires sont nécessaires sur la généralisabilité de l’ensemble de données synthétiques présenté.
Il est nécessaire de vérifier l’applicabilité du cadre à différents types de connaissances et de tâches
Les résultats de l’évaluation présentent des limites en raison de la subjectivité de l’évaluation humaine.
Le cadre actuel se concentre sur la qualité des questions et ne reflète donc peut-être pas pleinement la capacité d’acquérir et d’utiliser les connaissances réelles.
👍