Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MoNaCo: Preguntas más naturales y complejas para razonar a través de decenas de documentos

Created by
  • Haebom

Autor

Tomer Wolfson, Harsh Trivedi, Mor Geva, Yoav Goldberg, Dan Roth, Tushar Khot, Ashish Sabrwal, Reut Tsarfaty

Describir

Este artículo presenta MoNaCo, un novedoso benchmark para evaluar la capacidad de búsqueda de información de agentes automatizados basados ​​en modelos de lenguaje a gran escala (LLM). A diferencia de los benchmarks de control de calidad existentes, MoNaCo consta de 1315 preguntas en lenguaje natural que requieren mucho tiempo y decenas o cientos de pasos intermedios para los humanos. MoNaCo se construye mediante un flujo de anotación descompuesto que recopila y responde manualmente a un gran número de preguntas del mundo real que requieren mucho tiempo. La evaluación de LLM de vanguardia con MoNaCo revela que sus puntuaciones F1 están limitadas a un máximo del 61,2 % debido a problemas de memoria y alucinaciones, lo que pone de relieve las limitaciones de los agentes basados ​​en LLM para abordar tareas complejas y extensas de búsqueda de información en el mundo real. El benchmark, el código base, las indicaciones y las predicciones del modelo de MoNaCo están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Presentamos MoNaCo, un nuevo punto de referencia que supera las limitaciones de los puntos de referencia de control de calidad existentes.
Proporciona evaluaciones de desempeño de agentes basados ​​en LLM en tareas de búsqueda de información complejas y que requieren mucho tiempo en el mundo real.
Exponiendo los problemas de recuerdo y alucinaciones de los agentes basados ​​en LLM.
Proporcionar un recurso eficaz para realizar el seguimiento del desarrollo de los agentes LLM.
Permitir la investigación a través de la publicación de puntos de referencia, código, indicaciones, predicciones de modelos, etc. de MoNaCo.
Limitations:
Es posible que las preguntas de MoNaCo no representen perfectamente todos los tipos de tareas de búsqueda de información que requieren mucho tiempo en el mundo real.
El escalamiento de referencia puede ser limitado debido a su dependencia de anotaciones manuales.
La puntuación F1 por sí sola, como métrica de evaluación, puede no evaluar exhaustivamente todos los aspectos de un agente LLM.
👍