Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Escalamiento de la planificación LLM: NL2FLOW para la generación de problemas paramétricos y la evaluación rigurosa

Created by
  • Haebom

Autor

Jungkoo Kang

Describir

Este artículo presenta NL2Flow, una canalización automatizada diseñada para abordar la falta de datos de evaluación escalables para evaluar la planificación del flujo de trabajo y el rendimiento de la inferencia de modelos de lenguaje a gran escala (LLM). NL2Flow genera una representación intermedia estructurada del problema y la traduce a lenguaje natural y PDDL formal. Utilizando un conjunto de datos de 2296 problemas de baja dificultad, evaluamos varios LLM de código abierto con optimización dirigida. El modelo con mejor rendimiento alcanza una tasa de éxito del 86 % en la generación de planes válidos y del 69 % en la generación de planes óptimos. El análisis de regresión revela que el impacto de las características del problema varía según el modelo y el diseño de la solicitud. Específicamente, demostramos los beneficios de la integración de símbolos neuronales al demostrar que la conversión de problemas de lenguaje natural en representaciones JSON estructuradas y la posterior planificación simbólica mejoran significativamente la tasa de éxito. Estos resultados resaltan la importancia de comprender las fuentes de error en la inferencia de LLM a medida que escala a tareas complejas.

Takeaways, Limitations

Takeaways:
Presentamos NL2Flow, una novedosa canalización automatizada para planificar flujos de trabajo y evaluar capacidades de inferencia en LLM.
Proporciona una evaluación y análisis cuantitativos del desempeño de generación de planes de LLM (86% de generación de planes efectiva, 69% de generación de planes óptima).
Demostración experimental de la eficacia de la integración de símbolos neuronales (utilizando la representación intermedia JSON)
Proporciona información sobre la interacción entre las características del problema y el diseño del modelo/indicador.
Instrucciones para mejorar el rendimiento de la inferencia LLM (análisis y resolución de causas de error)
Limitations:
La dificultad de los problemas utilizados en la evaluación fue baja (2296 problemas de baja dificultad).
El LLM utilizado se limita al código abierto
Necesidad de evaluar y analizar el rendimiento de la inferencia LLM para tareas más complejas
Es necesario un análisis más profundo de las diferencias de rendimiento entre los modelos y diseños de indicaciones.
👍