Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Auto-ARGUE: Evaluación de generación de informes basada en LLM

Created by
  • Haebom

Autor

William Walden, Orion Weller, Laura Dietz, Bryan Li, Gabrielle Kaili-May Liu, Yu Hou, Eugene Yang

Describir

Auto-ARGUE es un marco basado en LLM para evaluar sistemas de generación de búsqueda aumentada (RAG) especializados en la generación de informes extensos. El análisis de Auto-ARGUE en una tarea piloto de generación de informes del programa TREC 2024 NeuCLIR confirmó su alta correlación con el juicio humano. También lanzamos una aplicación web para visualizar los resultados de Auto-ARGUE.

Takeaways, Limitations

Takeaways:
Aborda la falta de herramientas diseñadas específicamente para la evaluación de generación de informes.
Presentamos un sistema de evaluación robusto que muestra una alta correlación con el juicio humano.
Mayor usabilidad al proporcionar una aplicación web que visualiza la salida de Auto-ARGUE.
Limitations:
Es necesario verificar la generalización de Auto-ARGUE y su rendimiento en otras tareas de generación de informes.
Hay margen de mejora en el rendimiento del propio Auto-ARGUE.
Se necesita más investigación sobre las cuestiones de imparcialidad y sesgo del sistema de evaluación.
👍