Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Vérification du plan pour les agents d'exécution de tâches incarnés basés sur LLM

Created by
  • Haebom

Auteur

Ananth Hariharan, Vardhan Dongre, Dilek Hakkani-Tur , Gokhan Tur

Contour

Cet article aborde le problème selon lequel la planification des tâches basée sur un modèle de langage à grande échelle (LLM) pour l'IA implémentée et sa démonstration humaine correspondante peuvent dégrader la qualité des politiques en raison d'actions inutiles, d'explorations redondantes et d'erreurs logiques. Pour y remédier, nous proposons un cadre de validation itératif dans lequel le LLM de jugement critique les séquences d'actions et le LLM de planification applique les corrections. Cela produit des trajectoires progressivement plus propres et spatialement cohérentes. Contrairement aux approches basées sur des règles, il s'appuie sur des invites en langage naturel, permettant une large généralisation sur divers types d'erreurs, notamment les actions non pertinentes, les contradictions et les étapes manquantes. Sur un ensemble d'actions annotées manuellement à partir du jeu de données d'IA d'implémentation TEACh, le cadre proposé atteint jusqu'à 90 % de rappel et 100 % de précision par rapport à quatre LLM de pointe (GPT-4-mini, DeepSeek-R1, Gemini 2.5 et LLaMA 4 Scout). La boucle de raffinement converge rapidement, 96,5 % des séquences ne nécessitant que trois itérations, améliorant ainsi à la fois l'efficacité temporelle et la composition spatiale des actions. Il est important de noter que cette méthode soutient les recherches futures sur les comportements de correction robustes en préservant les schémas de récupération après erreur humaine sans les perturber. En faisant de la validation des plans une fonction LLM fiable pour la planification spatiale et l'amélioration des comportements, elle offre une voie évolutive vers des données d'apprentissage de haute qualité pour l'apprentissage par imitation dans l'IA implémentée.

Takeaways, Limitations

Takeaways:
Nous démontrons que la qualité des plans de tâches d’IA peut être améliorée grâce à un cadre de vérification de plan itératif utilisant LLM.
Les approches basées sur l’invite en langage naturel permettent une généralisation sur différents types d’erreurs.
Améliore l'efficacité du temps et l'organisation du comportement spatial.
Contribue à la construction de systèmes robustes en préservant les modèles de récupération des erreurs humaines.
Fournit une méthode évolutive pour générer des données de formation de haute qualité pour l'apprentissage par imitation.
Limitations:
Les performances du cadre proposé peuvent dépendre des performances du LLM utilisé.
Seuls les résultats d’évaluation pour l’ensemble de données TEACh sont présentés, et les performances de généralisation sur d’autres ensembles de données nécessitent une validation supplémentaire.
Des recherches supplémentaires sont nécessaires pour évaluer les performances de traitement de tâches complexes ou de situations exceptionnelles.
Nous ne garantissons pas la suppression complète des erreurs, et certaines erreurs peuvent encore subsister.
👍