Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ArXivBench : Quand éviter d'utiliser ChatGPT pour la rédaction académique ?

Created by
  • Haebom

Auteur

Ning Li, Jingran Zhang, Justin Cui

Contour

Cet article évalue la fiabilité factuelle des modèles de langage à grande échelle (MLL), et plus particulièrement leur capacité à générer des liens vers des articles arXiv. Nous avons évalué divers LLM propriétaires et open source à l'aide d'un nouveau benchmark, arXivBench, couvrant huit disciplines majeures et cinq sous-domaines de l'informatique. L'évaluation a révélé que les LLM présentent un risque important pour la crédibilité académique, générant souvent des liens arXiv incorrects ou référençant des articles inexistants. Claude-3.5-Sonnet a démontré une fiabilité relativement élevée, et la plupart des LLM ont nettement surpassé les autres disciplines en intelligence artificielle. Cette étude contribue à évaluer et à améliorer la crédibilité des LLM dans le monde académique grâce au benchmark arXivBench. Le code et les données sont accessibles au public.

Takeaways, Limitations

Takeaways:
Cela démontre la gravité de la question de l’exactitude des faits dans les LLM, en particulier dans un contexte universitaire.
Nous identifions les variations spécifiques au domaine dans la performance du LLM et suggérons des orientations futures pour le développement et l'utilisation du LLM.
Nous fournissons un nouveau benchmark, arXivBench, pour permettre une évaluation objective de l'utilisation académique des LLM.
Nous soulignons l’importance de la recherche pour garantir la fiabilité de l’utilisation académique du LLM.
Limitations:
Le benchmark actuel est limité aux articles arXiv et n'évalue pas les performances du LLM sur d'autres types de supports académiques.
Les types et versions des LLM évalués peuvent être limités.
Il peut y avoir des limites et une marge d’amélioration dans les mesures utilisées pour évaluer la performance du LLM.
👍