Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ArXivBench: Cuándo evitar el uso de ChatGPT para la escritura académica

Created by
  • Haebom

Autor

Ning Li, Jingran Zhang, Justin Cui

Describir

Este artículo evalúa la precisión factual de los modelos lingüísticos a gran escala (LLM), específicamente su precisión para generar enlaces a artículos de arXiv. Evaluamos diversos LLM, tanto propietarios como de código abierto, utilizando un novedoso benchmark, arXivBench, que abarca ocho disciplinas principales y cinco subcampos de la informática. La evaluación reveló que los LLM representan un riesgo significativo para la credibilidad académica, ya que a menudo generan enlaces incorrectos a arXiv o referencian a artículos inexistentes. Claude-3.5-Sonnet demostró una precisión relativamente alta, y la mayoría de los LLM superaron significativamente a otras disciplinas en el campo de la inteligencia artificial. Este estudio contribuye a la evaluación y mejora de la credibilidad de los LLM en el ámbito académico mediante el benchmark arXivBench. El código y el conjunto de datos están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Esto demuestra la gravedad de la cuestión de la exactitud factual en los LLM, especialmente en un contexto académico.
Identificamos variaciones específicas de cada campo en el desempeño del LLM y sugerimos direcciones futuras para el desarrollo y utilización del LLM.
Ofrecemos un nuevo punto de referencia, arXivBench, para permitir la evaluación objetiva del uso académico de los LLM.
Destacamos la importancia de la investigación para asegurar la confiabilidad del uso académico del LLM.
Limitations:
El punto de referencia actual se limita a los artículos de arXiv y no evalúa el desempeño del LLM en otros tipos de materiales académicos.
Los tipos y versiones de LLM que se evalúan pueden ser limitados.
Puede haber limitaciones y margen de mejora en las métricas utilizadas para evaluar el desempeño del LLM.
👍