Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HyCodePolicy : Contrôleurs de langage hybrides pour la surveillance et la décision multimodales chez les agents intégrés

Created by
  • Haebom

Auteur

Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

Contour

Cet article présente les avancées récentes des modèles de langage multimodaux à grande échelle (MLLM), qui permettent de générer des preuves perceptuelles riches pour la génération de politiques de code dans les agents incarnés. La plupart des systèmes existants manquent de mécanismes efficaces pour surveiller de manière adaptative l'exécution des politiques et récupérer le code pendant l'exécution des tâches. Cette étude présente HyCodePolicy, un cadre de contrôle basé sur un langage hybride qui intègre systématiquement la synthèse de code, les preuves géométriques, la surveillance perceptuelle et la récupération itérative dans le cycle de programmation en boucle fermée des agents incarnés. Étant donné une instruction en langage naturel, le système la décompose d'abord en sous-objectifs et génère un programme exécutable initial basé sur des primitives géométriques orientées objet. Ensuite, pendant l'exécution du programme en simulation, un modèle de langage vision (VLM) observe des points de contrôle sélectionnés pour détecter, localiser et inférer la cause des échecs d'exécution. En intégrant des traces d'exécution structurées qui capturent les événements au niveau du programme avec un retour perceptuel basé sur le VLM, HyCodePolicy infère la cause des échecs et récupère le programme. Ce mécanisme hybride à double rétroaction permet la synthèse de programmes autocorrectifs avec une supervision humaine minimale. Les résultats expérimentaux démontrent que HyCodePolicy améliore significativement la robustesse et l'efficacité d'échantillonnage des politiques de manipulation des robots, offrant ainsi une stratégie évolutive pour intégrer l'inférence multimodale dans les pipelines de prise de décision autonome.

Takeaways, Limitations

Takeaways:
Nous présentons HyCodePolicy, un nouveau cadre qui exploite l'inférence multimodale pour améliorer la robustesse et l'efficacité d'échantillonnage des politiques de manipulation de robots.
Mise en œuvre d'un cycle de programmation en boucle fermée qui intègre la synthèse de code, la logique géométrique, la surveillance perceptive et la récupération itérative.
Synthèse de programme autocorrectrice possible grâce à un mécanisme de rétroaction double hybride qui combine une rétroaction perceptuelle basée sur VLM et un suivi des événements au niveau du programme.
Fournir une stratégie évolutive pour intégrer l'inférence multimodale dans des pipelines de prise de décision autonomes.
Limitations:
Les performances de HyCodePolicy peuvent dépendre des performances du VLM et des autres composants utilisés.
Peut avoir une capacité limitée à gérer des situations de défaillance complexes ou inattendues.
Les performances dans un environnement simulé ne garantissent pas la généralisabilité aux environnements réels.
Il convient de prendre en compte les contraintes et les problèmes supplémentaires qui peuvent survenir lors de l’application à des systèmes robotiques réels.
👍