Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Verificación del plan para agentes de finalización de tareas incorporadas basados ​​en LLM

Created by
  • Haebom

Autor

Ananth Hariharan, Vardhan Dongre, Dilek Hakkani-Tur , Gokhan Tur

Describir

Este artículo aborda el problema de que la planificación de tareas basada en modelos de lenguaje a gran escala (LLM) para la IA implementada y su correspondiente demostración humana puede degradar la calidad de las políticas debido a acciones innecesarias, exploración redundante y errores lógicos. Para abordar esto, proponemos un marco de validación iterativo en el que el LLM de juicio critica las secuencias de acción y el LLM de planificación aplica correcciones. Esto produce trayectorias progresivamente más limpias y espacialmente consistentes. A diferencia de los enfoques basados ​​en reglas, se basa en indicaciones de lenguaje natural, lo que permite una amplia generalización en una variedad de tipos de error, incluyendo acciones irrelevantes, contradicciones y pasos omitidos. En un conjunto de acciones anotadas manualmente del conjunto de datos de IA de implementación de TEACh, el marco propuesto logra hasta un 90% de recuperación y un 100% de precisión contra cuatro LLM de última generación (GPT-4-mini, DeepSeek-R1, Gemini 2.5 y LLaMA 4 Scout). El ciclo de refinamiento converge rápidamente, con el 96,5% de las secuencias requiriendo solo tres iteraciones, mejorando tanto la eficiencia temporal como la composición espacial de la acción. Es importante destacar que este método respalda la investigación futura sobre comportamientos de corrección robustos, ya que preserva los patrones de recuperación de errores humanos sin interrumpirlos. Al establecer la validación de planes como una función LLM confiable para la planificación espacial y la mejora del comportamiento, proporciona una vía escalable para obtener datos de entrenamiento de alta calidad para el aprendizaje por imitación en la IA implementada.

Takeaways, Limitations

Takeaways:
Demostramos que la calidad de los planes de tareas de IA se puede mejorar a través de un marco de verificación de planes iterativo utilizando LLM.
Los enfoques basados ​​en indicaciones del lenguaje natural permiten la generalización entre distintos tipos de errores.
Mejora la eficiencia del tiempo y la organización del comportamiento espacial.
Contribuye a la construcción de sistemas robustos al preservar los patrones de recuperación de errores humanos.
Proporciona un método escalable para generar datos de entrenamiento de alta calidad para el aprendizaje por imitación.
Limitations:
El rendimiento del marco propuesto puede depender del rendimiento del LLM utilizado.
Solo se presentan los resultados de la evaluación para el conjunto de datos TEACh, y el rendimiento de generalización en otros conjuntos de datos requiere mayor validación.
Se necesita más investigación para abordar el rendimiento del procesamiento de tareas complejas o situaciones excepcionales.
No garantizamos la eliminación completa de los errores, y es posible que aún queden algunos.
👍