Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Mise à l'échelle de la planification LLM : NL2FLOW pour la génération de problèmes paramétriques et l'évaluation rigoureuse

Created by
  • Haebom

Auteur

Jungkoo Kang

Contour

Cet article aborde le manque de données d'évaluation évolutives et fiables pour améliorer les capacités de planification et d'inférence des modèles de langage à grande échelle (MLL). Pour y parvenir, nous sélectionnons un domaine approprié, générons automatiquement des workflows et présentons NL2Flow, un système entièrement automatisé de génération de problèmes de planification utilisant le langage naturel, des représentations intermédiaires structurées et le PDDL formel. NL2Flow génère un ensemble de données de 2 296 problèmes de faible difficulté et évalue plusieurs LLM open source, optimisés par des directives, sans optimisation spécifique à la tâche ni modification d'architecture. Les résultats de l'évaluation montrent que le modèle le plus performant atteint un taux de réussite de 86 % pour la génération de plans valides et de 69 % pour la génération de plans optimaux pour les problèmes dont les plans sont réalisables. L'analyse de régression démontre que l'impact des caractéristiques du problème varie selon le modèle et la conception de l'invite. De plus, nous étudions le potentiel de LLM comme convertisseur langage naturel-JSON pour les définitions de workflows et évaluons ses performances de traduction sur les descriptions de workflows en langage naturel afin de faciliter l'intégration avec les outils de calcul symbolique et les planificateurs symboliques ultérieurs. La conversion du langage naturel en représentation JSON du problème de workflow a donné des taux de réussite inférieurs à la génération directe d'un plan, ce qui suggère qu'une décomposition inutile de la tâche d'inférence peut dégrader les performances et met en évidence les avantages des modèles capables d'inférer directement du langage naturel aux actions. À mesure que l'inférence LLM s'adapte à des problèmes de plus en plus complexes, il est crucial de comprendre l'évolution des goulots d'étranglement et des sources d'erreur au sein de ces systèmes.

Takeaways, Limitations

Takeaways:
Présentation d'une nouvelle méthode d'évaluation et d'un ensemble de données (NL2Flow) pour la génération automatisée de flux de travail à l'aide de LLM.
Présentation des résultats d'analyse empirique sur la capacité de génération de plans du LLM (le modèle le plus performant avait un taux de réussite de 86 % dans la génération de plans valides et un taux de réussite de 69 % dans la génération de plans optimaux).
Fournit un aperçu de l’interaction entre les caractéristiques du problème, les modèles et la conception rapide.
Proposer des orientations pour améliorer les stratégies d'inférence LLM en comparant l'efficacité de la génération de plans directs par rapport à la conversion du langage naturel en JSON.
Limitations:
Actuellement, seuls les problèmes de faible difficulté sont évalués (des recherches supplémentaires sont nécessaires pour déterminer les performances du LLM sur des problèmes complexes).
Recherche limitée à un domaine spécifique (génération automatisée de flux de travail) (la généralisabilité à d'autres domaines doit être vérifiée)
Les modèles LLM utilisés sont limités aux modèles open source et affinés (l'évaluation des modèles les plus récents et à grande échelle est requise).
👍