Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Robo-Instruct : alignement des instructions augmenté par simulateur pour affiner les LLM de code

Created by
  • Haebom

Auteur

Zichao Hu, Junyi Jessy Li, Arjun Guha, Joydeep Biswas

Contour

Cet article se concentre sur les grands modèles de langage (LLM), des codes qui ont montré des résultats prometteurs dans la traduction de tâches en langage naturel en programmes pour robots de service. Si le réglage fin de petits LLM spécialisés est intéressant, la collecte d'un ensemble de données de paires tâche-programme spécifiques à chaque robot est longue et coûteuse. Si des méthodes comme SELF-INSTRUCT et EVOL-INSTRUCT peuvent générer de nouvelles tâches à partir de quelques exemples, elles ne peuvent pas fournir de programmes correspondants respectant correctement le monde physique et les contraintes du robot grâce à l'interface de programmation fournie. L'utilisation d'un simulateur est une solution potentielle naturelle pour vérifier ces contraintes, mais la création d'un environnement de simulation capable de gérer des tâches arbitraires et les objets et emplacements requis est complexe. Pour relever ce défi, cet article propose ROBO-INSTRUCT. ROBO-INSTRUCT déduit de manière opportuniste les propriétés des entités pendant l'exécution du programme et applique ces contraintes en fonction de la manière dont les entités sont utilisées dans le programme de la tâche, synthétisant ainsi à la volée un environnement de simulation spécifique à la tâche. De plus, ROBO-INSTRUCT intègre une procédure de post-traitement assistée par LLM pour améliorer l'alignement avec le programme du robot. Nous démontrons l’efficacité de ROBO-INSTRUCT sur plusieurs LLM, montrant que le modèle affiné surpasse toutes les méthodes de base et égale ou dépasse même les performances de plusieurs modèles propriétaires plus grands.

Takeaways, Limitations

Takeaways:
Une méthode efficace pour relever les défis de la collecte d’ensembles de données de paires tâche-programme est présentée.
Affiner efficacement les petits LLM spécialisés pour atteindre des performances compétitives avec des modèles à grande échelle.
Gérez efficacement les contraintes physiques grâce à la synthèse d'environnement de simulation en temps réel.
Alignement amélioré avec les programmes robotiques grâce à des procédures de post-traitement basées sur LLM.
Limitations:
Les performances de ROBO-INSTRUCT peuvent dépendre de la précision du LLM et du simulateur utilisés.
Il peut y avoir des limites à la gestion parfaite de toutes les tâches, objets et emplacements arbitraires.
Une évaluation complémentaire de la capacité à gérer des tâches complexes ou des situations exceptionnelles est requise.
La création et la maintenance d’un environnement de simulation peuvent être coûteuses et prendre du temps.
👍