Este artículo evalúa la precisión factual de los modelos lingüísticos a gran escala (LLM), específicamente su precisión para generar enlaces a artículos de arXiv. Evaluamos diversos LLM, tanto propietarios como de código abierto, utilizando un novedoso benchmark, arXivBench, que abarca ocho disciplinas principales y cinco subcampos de la informática. La evaluación reveló que los LLM representan un riesgo significativo para la credibilidad académica, ya que a menudo generan enlaces incorrectos a arXiv o referencian a artículos inexistentes. Claude-3.5-Sonnet demostró una precisión relativamente alta, y la mayoría de los LLM superaron significativamente a otras disciplinas en el campo de la inteligencia artificial. Este estudio contribuye a la evaluación y mejora de la credibilidad de los LLM en el ámbito académico mediante el benchmark arXivBench. El código y el conjunto de datos están disponibles públicamente.