[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Plancraft: un conjunto de datos de evaluación para la planificación con agentes LLM

Created by
  • Haebom

Autor

Gautier Dagan, Frank Keller, Alex Lascarides

Describir

Plancraft es un conjunto de datos de evaluación multimodal para agentes LLM. Ofrece una interfaz multimodal de solo texto basada en la interfaz gráfica de usuario (GUI) de creación de Minecraft. Incluye la wiki de Minecraft para el uso de herramientas y la evaluación de la Generación Aumentada de Recuperación (RAG), así como un planificador personalizado y un Oracle Retriever para analizar diversos componentes de las arquitecturas de agentes modernas. También incluye un subconjunto de ejemplos intencionalmente irresolubles para la evaluación de decisiones, lo que proporciona tareas realistas que requieren que el agente no solo complete la tarea, sino que también decida si es solucionable. Realizamos un análisis comparativo de LLM de código abierto y de código cerrado, comparando su rendimiento y eficiencia con los planificadores personalizados. En general, observamos que LLM y VLM presentan dificultades para abordar los problemas de planificación presentados en Plancraft y ofrecemos sugerencias para mejorar sus capacidades.

Takeaways, Limitations

Takeaways: Presentamos un nuevo punto de referencia para evaluar la capacidad de planificación y toma de decisiones de LLM y VLM en problemas realistas. Presentamos instrucciones para mejorar la arquitectura del agente LLM mediante la evaluación del rendimiento de RAG con la wiki de Minecraft y su comparación con un planificador personalizado. La inclusión de problemas irresolubles nos permite evaluar la capacidad de resolución de problemas del agente, así como su criterio.
Limitations: Se requiere mayor investigación sobre la generalización del entorno de Minecraft y las tareas utilizadas en el benchmark actual. El conjunto de datos de evaluación podría tener limitaciones en cuanto al tamaño y la diversidad. Los resultados de la evaluación limitados a un entorno de juego específico podrían dificultar su generalización a otros dominios.
👍