Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Mise à l'échelle de la planification LLM : NL2FLOW pour la génération de problèmes paramétriques et l'évaluation rigoureuse

Created by
  • Haebom

Auteur

Jungkoo Kang

Contour

Afin de pallier le manque de données d'évaluation évolutives pour améliorer les capacités de planification et d'inférence des modèles de langage à grande échelle (MLL), cet article présente NL2Flow, un pipeline permettant de générer et d'évaluer automatiquement des problèmes de planification de flux de travail. NL2Flow paramètre le problème dans une représentation intermédiaire structurée, qui est ensuite traduite en langage naturel et en PDDL formel. À l'aide d'un ensemble de données de 2 296 problèmes de faible difficulté, nous évaluons plusieurs LLM open source à réglage dirigé. Le modèle le plus performant atteint un taux de réussite de 86 % pour la génération de plans valides et de 69 % pour la génération de plans optimaux (pour les problèmes résolubles). L'analyse de régression révèle que l'impact des caractéristiques du problème sur la génération de plans varie selon le modèle et la conception de l'invite. Plus précisément, la conversion du problème en langage naturel en une représentation JSON structurée, puis la planification symbolique, améliorent significativement le taux de réussite, suggérant les avantages de l'intégration neuronale-symbolique. À mesure que l'inférence LLM s'adapte à des tâches plus complexes, il est crucial de comprendre les sources d'erreur au sein du système.

Takeaways, Limitations

Takeaways:
NL2Flow fournit un pipeline de génération de jeux de données évolutif pour évaluer les capacités de planification et d'inférence LLM.
Nous démontrons que la transformation des problèmes de langage naturel en représentations structurées améliore les performances de génération de plans de LLM, suggérant l'utilité de l'intégration de symboles neuronaux.
Nous analysons les facteurs (modèle, invites et caractéristiques du problème) qui affectent les performances de génération de plans du LLM et suggérons des orientations de recherche futures.
Nous soulignons l’importance d’analyser et de résoudre les causes d’erreur pour améliorer les performances de l’inférence LLM.
Limitations:
ÉTant donné que nous n’avons évalué jusqu’à présent que 2 296 problèmes de faible difficulté, les performances du LLM sur les problèmes de grande difficulté nécessitent des recherches supplémentaires.
Un examen plus approfondi est nécessaire de la diversité et de la complexité des problèmes générés par NL2Flow.
Une évaluation plus approfondie des différents types de LLM est nécessaire.
👍