Cet article évalue la fiabilité factuelle des modèles de langage à grande échelle (MLL), et plus particulièrement leur capacité à générer des liens vers des articles arXiv. Nous avons évalué divers LLM propriétaires et open source à l'aide d'un nouveau benchmark, arXivBench, couvrant huit disciplines majeures et cinq sous-domaines de l'informatique. L'évaluation a révélé que les LLM présentent un risque important pour la crédibilité académique, générant souvent des liens arXiv incorrects ou référençant des articles inexistants. Claude-3.5-Sonnet a démontré une fiabilité relativement élevée, et la plupart des LLM ont nettement surpassé les autres disciplines en intelligence artificielle. Cette étude contribue à évaluer et à améliorer la crédibilité des LLM dans le monde académique grâce au benchmark arXivBench. Le code et les données sont accessibles au public.