Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Escalamiento de la planificación LLM: NL2FLOW para la generación de problemas paramétricos y la evaluación rigurosa

Created by
  • Haebom

Autor

Jungkoo Kang

Describir

Para abordar la falta de datos de evaluación escalables que mejoren las capacidades de planificación e inferencia de los modelos de lenguaje a gran escala (LLM), este artículo presenta NL2Flow, una metodología para generar y evaluar automáticamente problemas de planificación de flujos de trabajo. NL2Flow parametriza el problema en una representación intermedia estructurada, que posteriormente se traduce a lenguaje natural y PDDL formal. Utilizando un conjunto de datos de 2296 problemas de baja dificultad, evaluamos varios LLM de código abierto con optimización dirigida. El modelo con mejor rendimiento alcanza una tasa de éxito del 86 % en la generación de planes válidos y del 69 % en la generación de planes óptimos (para problemas con solución). El análisis de regresión revela que el impacto de las características del problema en la generación de planes varía según el modelo y el diseño de la solicitud. En concreto, convertir el problema de lenguaje natural en una representación JSON estructurada y, posteriormente, realizar la planificación simbólica mejora significativamente la tasa de éxito, lo que sugiere las ventajas de la integración neurosimbólica. A medida que la inferencia de LLM escala a tareas más complejas, es crucial comprender las fuentes de error dentro del sistema.

Takeaways, Limitations

Takeaways:
NL2Flow proporciona un proceso de generación de conjuntos de datos escalable para evaluar las capacidades de inferencia y planificación de LLM.
Demostramos que transformar problemas de lenguaje natural en representaciones estructuradas mejora el rendimiento de generación de planes de LLM, lo que sugiere la utilidad de la integración de símbolos neuronales.
Analizamos los factores (modelo, indicaciones y características del problema) que afectan el desempeño de generación de planes de LLM y sugerimos futuras direcciones de investigación.
Enfatizamos la importancia de analizar y resolver las causas de error para mejorar el desempeño de la inferencia LLM.
Limitations:
Dado que hasta la fecha solo hemos evaluado 2296 problemas de baja dificultad, el desempeño de LLM en problemas de alta dificultad requiere más investigación.
Es necesaria una revisión más profunda de la diversidad y complejidad de los problemas generados por NL2Flow.
Se necesita una mayor evaluación de los diferentes tipos de LLM.
👍