Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Manipulation à long terme incarnée avec génération de code en boucle fermée et adaptation incrémentale à quelques coups

Created by
  • Haebom

Auteur

Yuan Meng, Xiangtong Yao, Haihui Ye, Yirui Zhou, Shengqiang Zhang, Zhenguo Sun, Xukun Li, Zhenshan Bing, Alois Knoll

Contour

Cet article présente un nouveau cadre de contrôle robotique pour la manipulation d'objets de longue durée. Étant donné que les approches existantes basées sur l'apprentissage s'appuient sur de vastes ensembles de données spécifiques à des tâches et peinent à être généralisées à des scénarios inconnus, cette étude propose un cadre en boucle fermée qui utilise un modèle de langage à grande échelle (LLM) pour générer des plans de code directement exécutables, plutôt que de s'appuyer sur des contrôleurs de bas niveau pré-entraînés. Le LLM génère des plans de tâches robustes et généralisables grâce à quelques itérations d'apprentissage guidées par le cours de pensée (CoT) et des exemples progressivement structurés. Un rapporteur utilisant RGB-D évalue les résultats et fournit un retour structuré, permettant la correction des erreurs et la replanification sous observation partielle. Cela élimine l'inférence étape par étape, réduit la surcharge de calcul et limite l'accumulation d'erreurs observée avec les méthodes précédentes. Il atteint des performances de pointe sur plus de 30 tâches de longue durée diverses, connues et inconnues, dans des environnements réels encombrés, notamment LoHoRavens, CALVIN, Franka Kitchen et d'autres.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle solution au problème de manipulation d'objets à long terme en exploitant des modèles de langage à grande échelle pour générer du code directement exécutable sans contrôleur de bas niveau.
Générer des plans d’action robustes et généralisables grâce à des processus de réflexion guidée (CoT) et à un apprentissage progressif et structuré par des exemples.
Un cadre en boucle fermée et un système de rétroaction basé sur RGB-D permettent la correction et la replanification des erreurs, réduisant ainsi l'inférence étape par étape et l'accumulation d'erreurs.
Obtenez des performances de pointe pour plus de 30 tâches dans divers environnements.
Limitations:
Cela dépend des performances de LLM, et les limitations de LLM peuvent affecter directement les performances du système.
ÉTant donné que certaines pièces dépendent du capteur RGB-D, le fonctionnement du système peut être affecté si le capteur est dégradé ou indisponible.
Les performances de généralisation dans des environnements réels nécessitent des expérimentations et des validations supplémentaires.
Le coût de calcul du LLM peut être important et des recherches supplémentaires sur ses performances en temps réel sont nécessaires.
👍