Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Escalamiento de la planificación LLM: NL2FLOW para la generación de problemas paramétricos y la evaluación rigurosa

Created by
  • Haebom

Autor

Jungkoo Kang

Describir

Este artículo aborda la falta de datos de evaluación escalables y fiables para mejorar las capacidades de planificación e inferencia de los modelos de lenguaje a gran escala (LLM). Para ello, seleccionamos un dominio adecuado, generamos flujos de trabajo automatizados y presentamos NL2Flow, un sistema totalmente automatizado para generar problemas de planificación utilizando lenguaje natural, representaciones intermedias estructuradas y PDDL formal. NL2Flow genera un conjunto de datos de 2296 problemas de baja dificultad y evalúa varios LLM de código abierto, optimizados según directivas, sin optimización específica de la tarea ni modificación de la arquitectura. Los resultados de la evaluación muestran que el modelo con mejor rendimiento alcanza una tasa de éxito del 86 % en la generación de planes válidos y del 69 % en la generación de planes óptimos para problemas con planes factibles. El análisis de regresión demuestra que el impacto de las características del problema varía según el modelo y el diseño de la solicitud. Además, investigamos el potencial de LLM como conversor de lenguaje natural a JSON para definiciones de flujos de trabajo y evaluamos su rendimiento de traducción en descripciones de flujos de trabajo en lenguaje natural para facilitar la integración con herramientas de computación simbólica y planificadores simbólicos posteriores. La conversión del lenguaje natural a una representación JSON del problema del flujo de trabajo arrojó tasas de éxito inferiores a la generación directa de un plan, lo que sugiere que la descomposición innecesaria de la tarea de inferencia puede reducir el rendimiento y destaca las ventajas de los modelos capaces de inferir directamente del lenguaje natural a las acciones. A medida que la inferencia LLM escala a problemas cada vez más complejos, es crucial comprender los cuellos de botella y las fuentes de error en constante evolución dentro de estos sistemas.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método de evaluación y conjunto de datos (NL2Flow) para la generación automatizada de flujo de trabajo utilizando LLM.
Presentación de los resultados del análisis empírico sobre la capacidad de generación de planes del LLM (el modelo con mejor desempeño tuvo una tasa de éxito del 86% en la generación de planes válidos y una tasa de éxito del 69% en la generación de planes óptimos).
Proporciona información sobre la interacción entre las características del problema, los modelos y el diseño de indicaciones.
Sugerir direcciones para mejorar las estrategias de inferencia de LLM comparando la eficiencia de la generación directa de planes versus la conversión de lenguaje natural a JSON.
Limitations:
Actualmente, sólo se evalúan problemas de baja dificultad (se necesita más investigación para determinar el desempeño del LLM en problemas complejos).
Investigación limitada a un dominio específico (generación automatizada de flujo de trabajo) (se debe verificar la generalización a otros dominios)
Los modelos LLM utilizados se limitan a modelos de código abierto y ajustados (se requiere la evaluación de los modelos más recientes y a gran escala).
👍