Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Modèles de langage volumineux pour la revue automatisée de la littérature : évaluation de la génération de références, de la rédaction de résumés et de la composition de revues

Created by
  • Haebom

Auteur

Xuemei Tang, Xufeng Duan, Zhenguang G. Cai

Contour

Cet article explore le potentiel et les limites de l'automatisation des revues de littérature à l'aide de modèles linguistiques à grande échelle (MLL). Si les LLM offrent le potentiel d'automatiser le processus de revue de littérature, y compris la collecte, l'organisation et la synthèse des documents, leur efficacité pour automatiser des revues de littérature complètes et fiables reste incertaine. Cette étude présente un cadre d'évaluation automatique des performances des LLM dans trois tâches principales : la génération de références, la synthèse de la littérature et la rédaction de revues de littérature. Nous évaluons le taux d'hallucination des références générées et introduisons une mesure d'évaluation multidimensionnelle qui mesure la couverture sémantique et la cohérence factuelle des résumés et de la rédaction par rapport à ceux générés par des humains. Les résultats expérimentaux montrent que même les modèles les plus récents, malgré les avancées récentes, génèrent des références hallucinatoires. De plus, nous démontrons que les performances de différents modèles dans la rédaction de revues de littérature varient selon les disciplines.

Takeaways, Limitations

Takeaways: Cet article présente un cadre et des indicateurs d'évaluation permettant d'évaluer objectivement le potentiel et les limites de l'automatisation des revues de littérature à l'aide du LLM. En révélant que les performances du LLM varient selon les disciplines universitaires, cet article suggère la nécessité de développer un modèle prenant en compte les spécificités de chaque domaine.
Limitations: Même les LLM les plus récents ont identifié des problèmes générant des références à des hallucinations. Cela suggère la nécessité de poursuivre les recherches et le développement pour améliorer la fiabilité des analyses documentaires automatisées utilisant les LLM. Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité du cadre proposé et des indicateurs d'évaluation.
👍